Maîtrisez l'utilisation des technologies Hadoop
eBook - ePub

Maîtrisez l'utilisation des technologies Hadoop

Initiation à l'écosystème Hadoop

  1. 432 pages
  2. French
  3. ePUB (adapté aux mobiles)
  4. Disponible sur iOS et Android
eBook - ePub

Maîtrisez l'utilisation des technologies Hadoop

Initiation à l'écosystème Hadoop

À propos de ce livre

Le manuel d'apprentissage de référence

Cet ouvrage est un manuel d'apprentissage technique qui a été rédigé pour toute personne souhaitant développer des compétences sur une ou plusieurs technologie(s) de l'écosystème Hadoop. Il permet d'utiliser de façon professionnelle 18 technologies clés de l'écosystème Hadoop : Spark, Hive, Pig, Impala, ElasticSearch, HBase, Lucene, HAWQ, MapReduce, Mahout, HAMA, Tez, Phoenix, YARN, ZooKeeper, Storm, Oozie et Sqoop.

L'ouvrage permet d'initier les débutants pour les emmener vers une utilisation professionnelle de ces technologies. Pour faciliter la compréhension de l'ouvrage, chaque chapitre s'achève par un rappel des points clés et un guide d'étude qui permettent au lecteur de consolider ses acquis. Des compléments web sont également disponibles en téléchargement sur le site www.editions-eyrolles.com/dl/0067478.

Au fil de la lecture de cet ouvrage, vous allez comprendre les approches conceptuelles de chacune de ces technologies pour rendre vos compétences indépendantes de l'évolution d'Hadoop. Vous serez finalement capable d'identifier les portées fonctionnelle, stratégique et managériale de chacune de ces technologies.

À qui cet ouvrage s'adresse-t-il ?

  • Aux consultants BI/big data, data scientists, chargés d'études et chefs de projets data
  • Aux étudiants désireux de s'orienter vers le big data
  • Plus généralement, à tout professionnel souhaitant prendre le virage du big data ou souhaitant valoriser les données de son entreprise

Foire aux questions

Oui, vous pouvez résilier à tout moment à partir de l'onglet Abonnement dans les paramètres de votre compte sur le site Web de Perlego. Votre abonnement restera actif jusqu'à la fin de votre période de facturation actuelle. Découvrez comment résilier votre abonnement.
Pour le moment, tous nos livres en format ePub adaptés aux mobiles peuvent être téléchargés via l'application. La plupart de nos PDF sont également disponibles en téléchargement et les autres seront téléchargeables très prochainement. Découvrez-en plus ici.
Perlego propose deux forfaits: Essentiel et Intégral
  • Essentiel est idéal pour les apprenants et professionnels qui aiment explorer un large éventail de sujets. Accédez à la Bibliothèque Essentielle avec plus de 800 000 titres fiables et best-sellers en business, développement personnel et sciences humaines. Comprend un temps de lecture illimité et une voix standard pour la fonction Écouter.
  • Intégral: Parfait pour les apprenants avancés et les chercheurs qui ont besoin d’un accès complet et sans restriction. Débloquez plus de 1,4 million de livres dans des centaines de sujets, y compris des titres académiques et spécialisés. Le forfait Intégral inclut également des fonctionnalités avancées comme la fonctionnalité Écouter Premium et Research Assistant.
Les deux forfaits sont disponibles avec des cycles de facturation mensuelle, de 4 mois ou annuelle.
Nous sommes un service d'abonnement à des ouvrages universitaires en ligne, où vous pouvez accéder à toute une bibliothèque pour un prix inférieur à celui d'un seul livre par mois. Avec plus d'un million de livres sur plus de 1 000 sujets, nous avons ce qu'il vous faut ! Découvrez-en plus ici.
Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l'écouter. L'outil Écouter lit le texte à haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l'accélérer ou le ralentir. Découvrez-en plus ici.
Oui ! Vous pouvez utiliser l’application Perlego sur appareils iOS et Android pour lire à tout moment, n’importe où — même hors ligne. Parfait pour les trajets ou quand vous êtes en déplacement.
Veuillez noter que nous ne pouvons pas prendre en charge les appareils fonctionnant sous iOS 13 ou Android 7 ou versions antérieures. En savoir plus sur l’utilisation de l’application.
Oui, vous pouvez accéder à Maîtrisez l'utilisation des technologies Hadoop par Juvénal Chokogoue en format PDF et/ou ePUB ainsi qu'à d'autres livres populaires dans Informatique et Extraction de données. Nous disposons de plus d'un million d'ouvrages à découvrir dans notre catalogue.

Informations

Éditeur
Eyrolles
Année
2018
Imprimer l'ISBN
9782212674781
ISBN de l'eBook
9782212650693

PARTIE 1

Les modèles de calcul de l’écosystème Hadoop

image

1

Les modèles de calcul batch

Diviser pour mieux régner.
Le calcul dans un cluster exige que toutes les requêtes qui y arrivent soient totalement parallèles, c’est-à-dire que les tâches puissent s’exécuter de façon indépendante afin d’être réparties sur les nœuds du cluster. Si ce n’est pas le cas, il est impossible d’utiliser un cluster, encore moins un cluster Hadoop. Avant de penser à Hadoop, il faut donc commencer par se demander si le problème est parallélisable.
Par définition, tous les problèmes ne sont pas complètement parallélisables ; Google a créé le MapReduce pour répondre à des problématiques qui sont embarrasingly parallel. Contrairement à ce qu’on pourrait croire, cela ne veut pas dire « embarrassantes à paralléliser », mais plutôt « parallélisables à l’excès » : le MapReduce a été créé pour gérer l’exécution des problèmes qui sont très simples à paralléliser.
Un « problème facilement parallélisable » est un programme qui ne demande aucun effort particulier pour être découpé en tâches indépendantes. Par définition, ce type de problèmes s’exécute en batch, ce qui est plutôt une bonne nouvelle, puisque – dans la majorité des problématiques impliquant une grosse volumétrie des données – ces dernières ont une structure extrêmement régulière et qu’il n’y a pas d’exigence particulière sur les temps de réponse. Des exemples de telles problématiques incluent l’indexation des pages web, le reporting périodique, l’interrogation des modèles relationnels de données, les tests de performance, l’interrogation de graphes et l’analyse textuelle. Le MapReduce offre l’opportunité d’exploiter le parallélisme sur ces types de problématiques.
Cependant, toutes les problématiques ne sont pas simples à paralléliser. Les travaux d’apprentissage statistique, par exemple, exigent le passage itératif de l’algorithme sur les données, ce qui rend l’utilisation du MapReduce inadapté. Dans ce chapitre, nous allons vous expliquer le fonctionnement du MapReduce et des modèles alternatifs qui le complètent, en l’occurrence Mahout et Hama. L’objectif est que vous compreniez comment un problème « embarrasingly parallel » s’exécute dans le cluster.

Principes du traitement parallèle en batch

Avant d’entrer dans les détails du fonctionnement d’un modèle de calcul, il faut comprendre la notion de batch, puisque pratiquement tous les problèmes « embarrasingly parallel » s’exécutent sur ce mode.
Dans un ordinateur, l’endroit où les données sont stockées a une incidence vitale sur la capacité de paralléliser le traitement.
Dans l’ordinateur, les données sont stockées soit sur le disque dur, soit en mémoire centrale (RAM). Lorsque les données sont chargées en RAM, le traitement est plus rapide, mais il est très difficile à paralléliser. De plus, compte tenu de la taille limitée de la RAM, le volume de données qu’on peut y analyser est limité.
Lorsqu’on traite les données à partir de la RAM, on fait de l’in-memory processing ou traitement en mémoire.
Si les données sont stockées sur le disque dur, les traitements sont faciles à paralléliser ; on pourra traiter de plus gros volumes, mais les temps de réponse des traitements seront plus longs.
Lorsqu’on effectue un traitement à partir du disque dur, on fait ce qu’on appelle techniquement du batch processing, c’est-à-dire du traitement par lots ou traitement sur disque.
Dans ce chapitre, nous nous intéresserons aux principes du batch processing et à son impact sur le parallélisme des calculs, avant d’entrer dans les détails de l’in-memory processing au chapitre suivant.

Le traitement sur disque ou batch processing

Pour comprendre le traitement sur disque, il faut connaître les principes fondamentaux du traitement des données dans un ordinateur. Par principes, nous entendons des lois qui ne changent pas, ni avec le temps, ni avec la technologie. Quatre principes régissent le traitement de données dans un ordinateur.
image
Figure 1-1 – Architecture du traitement des données dans un ordinateur
1er principe : tout traitement informatique des données implique toujours la participation de trois composants de l’ordinateur : le disque dur, la mémoire centrale et le microprocesseur.
Comme le montre la figure 1-1, au départ de tout traitement informatique, il y a la donnée (par ricochet, le fichier contenant les données). Initialement stockée sur le disque dur, elle est ensuite transférée (on dit « chargée » ou « montée ») vers la mémoire centrale de l’ordinateur appelée RAM (Random Access Memory – mémoire à accès direct ou mémoire vive). Physiquement, la RAM a la forme d’une barrette. C’est à elle qu’on fait référence quand on parle de « mémoire ». Par la suite, la CPU (Central Processing Unit, ou microprocesseur) effectue le traitement spécifié par l’utilisateur sur les données dans la RAM. Enfin, les données traitées sont renvoyées sur le disque dur ; on dit qu’elles sont sérialisées ou qu’on les fait persister. En effet, contrairement à la RAM dont le stockage temporaire induit l’effacement des données après mise hors tension de l’ordinateur, le disque dur, quant à lui, conserve les données traitées.
2e principe : le microprocesseur traite toujours les données à partir de la RAM. Toujours !
Le microprocesseur se rend toujours dans la RAM pour effectuer les traitements (il y a accès directement) ; il ne peut pas recevoir directement les données venant du disque dur.
3e principe : la mémoire RAM garde son contenu le temps d’une session.
Au redémarrage de l’ordinateur, son contenu est vidé. Cela signifie que toute donnée en RAM, traitée ou non, doit être conservée sur le disque dur, sinon elle sera supprimée au démarrage de l’ordinateur. La RAM n’a pas été prévue pour un stockage permanent,...

Table des matières

  1. Couverture
  2. Le résumé et la biographie auteur
  3. Page de titre
  4. Copyright
  5. Table des matières
  6. Avant-propos
  7. Notes de l’auteur
  8. Remerciements
  9. Introduction à l’écosystème Hadoop
  10. Partie 1 : Les modèles de calcul de l’écosystème Hadoop
  11. Partie 2 : Les abstractions des modèles de calcul d’Hadoop
  12. Partie 3 : Le stockage de données en Hadoop
  13. Partie 4 : La gestion du cluster Hadoop
  14. Partie 5 : Le streaming en temps réel dans Hadoop
  15. Partie 6 : Les outils annexes de l’écosystème Hadoop
  16. Partie 7 : Adoption à grande échelle d’Hadoop
  17. Conclusion générale de l’ouvrage
  18. Votre avis compte !
  19. Liens et références utiles
  20. Index