Aquesta és una revisió antiga del document
Sesión 11 Jenkins
big data (Cloudera)
- MapReduce → Spark
- MapReduce : repartir la carga entre X servidores que no tengan colisiones y meterlo en un lugar común
- Hive : SQL to MapReduce
- Pig : lenguaje para no SQL (pero que se le parece tanto…)
- kafka : cluster
- impala : consumo intensivo RAM, accede al FS directamente (sin pasar por HDFS)
- HDFS : Hadoop Distributed FS (Java) → lento
- SOLR : indexador
- Kite : ¿api?
- Resource Management
- YARN : Yet Another Resource Negotation
- sistema de colas
- Filesystem: HDFS
- Relational: kudu
- Security
- Sentry : kerberos
- RecordService: ¿registro a qye se ha accedido?
- NoSQL: HBase (el perdedor contra Casandra)
- Storage
- Batch
- sqoop
- Real-Time
- Kafka
- Hadoop Cluster
- NameNode (de 2 a 3, este último para Journal)
- zookeeper : service discovery
- secondaryNameNode : helper
- Resource manager (YARN)
- DataNode
- Just a Band of Disc
- RAID1 para disco OS
- hacen el trabajo
- HDFS
- sistema raid
- bloques de 128MG
- replicación (3 dataNode)
- reglas de afinidad de la replicación
- sueltas el archivo de Gb o Tb