Aquesta és una revisió antiga del document
Sesión 11 Jenkins
big data (Cloudera)
- MapReduce → Spark
- MapReduce : repartir la carga entre X servidores que no tengan colisiones y meterlo en un lugar común
- Hive : SQL to MapReduce
- Pig : lenguaje para no SQL (pero que se le parece tanto…)
- kafka : cluster
- impala : consumo intensivo RAM, accede al FS directamente (sin pasar por HDFS)
- HDFS : Hadoop Distributed FS (Java) → lento
- SOLR : indexador
- Kite : ¿api?
- Resource Management
- YARN : Yet Another Resource Negotation
- sistema de colas
- Filesystem: HDFS
- Relational: kudu
- Security
- Sentry : kerberos
- RecordService: ¿registro a qye se ha accedido?
- NoSQL: HBase (el perdedor contra Casandra)
- Storage
- Batch
- sqoop
- Real-Time
- Kafka