Présentation de l’écosystème d’Hadoop
- L'architecture Hadoop.
- Description des principaux composants de la plateforme Hadoop.
- Rappels MapReduce.
- Le système de fichiers distribué HDFS (Hadoop Distributed File System) d'Hadoop.
- Présentation de HBase, ses apports, lien avec HDFS.
- Format des données dans HBase.
- Fonctionnalités : failover automatique, sharding, interface avec des jobs MapReduce.
Echanges
Le stockage distribué de données et les apports d’HBase.
Architecture HBase
- Terminologie de HBase : table, région, ligne, famille de colonnes, cellules, espace de nommage...
- Les 3 composants principaux : HMaster, Region Server, Zookeeper.
- Rôle de Zookeeper.
- Le schéma des données. Les différents scénarios de schémas.
Installation
- Installation et configuration dans le fichier conf/hbase-site.xml.
- Installation en mode distribué.
- Gestion des connexions avec hbase shell.
Travaux pratiques
Installation, configuration, test de connexion et interrogations depuis le serveur http intégré.
Base utilisation : Shell
- Les différentes interfaces disponibles.
- Commandes de base, syntaxe, variables, manipulation des données : create, list, put, scan, get.
- Programmation de scripts.
- Activer/désactiver une table, effacer une table : enable/disable, drop...
- Principe des filtres. Mise en œuvre de filtres de recherche.
- Paramètres des tables.
- Les espaces de nommage.
Travaux pratiques
Ecriture de scripts Hase Schell.
Cluster HBase
- Rappels : préparation et configuration du cluster Hadoop, principe de fonctionnement de HDFS.
- Fonctionnement en mode distribué.
- Fonctionnement indépendant des démons (HMaster, HRegionServer, Zookeeper).
- Mise en œuvre avec HDFS dans un environnement distribué.
Travaux pratiques
Mise en œuvre des splits dans des tables réparties.
Développement
- Les APIs (REST, Avro, Thrift, Java, Ruby, Spark, ...).
- La surveillance des applications.
- Exemple de programmation d'un client.
- Gestion des tables.
- Map/reduce.
Démonstration
Détail de programmes et lancement