eBook - ePub

Maîtrisez l'utilisation des technologies Hadoop

Name: Maîtrisez l'utilisation des technologies Hadoop
ISBN: 9782212650693

Initiation à l'écosystème Hadoop

Juvénal Chokogoue,

432 pages
French
ePUB (adaptée aux mobiles)
Disponible sur iOS et Android

eBook - ePub

Maîtrisez l'utilisation des technologies Hadoop

Initiation à l'écosystème Hadoop

Juvénal Chokogoue,

À propos de ce livre

Le manuel d'apprentissage de référence

Cet ouvrage est un manuel d'apprentissage technique qui a été rédigé pour toute personne souhaitant développer des compétences sur une ou plusieurs technologie(s) de l'écosystème Hadoop. Il permet d'utiliser de façon professionnelle 18 technologies clés de l'écosystème Hadoop : Spark, Hive, Pig, Impala, ElasticSearch, HBase, Lucene, HAWQ, MapReduce, Mahout, HAMA, Tez, Phoenix, YARN, ZooKeeper, Storm, Oozie et Sqoop.

L'ouvrage permet d'initier les débutants pour les emmener vers une utilisation professionnelle de ces technologies. Pour faciliter la compréhension de l'ouvrage, chaque chapitre s'achève par un rappel des points clés et un guide d'étude qui permettent au lecteur de consolider ses acquis. Des compléments web sont également disponibles en téléchargement sur le site www.editions-eyrolles.com/dl/0067478.

Au fil de la lecture de cet ouvrage, vous allez comprendre les approches conceptuelles de chacune de ces technologies pour rendre vos compétences indépendantes de l'évolution d'Hadoop. Vous serez finalement capable d'identifier les portées fonctionnelle, stratégique et managériale de chacune de ces technologies.

À qui cet ouvrage s'adresse-t-il ?

Aux consultants BI/big data, data scientists, chargés d'études et chefs de projets data
Aux étudiants désireux de s'orienter vers le big data
Plus généralement, à tout professionnel souhaitant prendre le virage du big data ou souhaitant valoriser les données de son entreprise

Approuvé par les 375,005 étudiants

Accès à plus de 1,5 million de titres pour un prix mensuel raisonnable.

Étudiez plus efficacement en utilisant nos outils d'étude.

Éditeur

Eyrolles

Année

2018

Imprimer l'ISBN

9782212674781

ISBN de l'eBook

9782212650693

Édition

Sujet

Informatique

Sujet

Extraction de données

PARTIE 1

Les modèles de calcul de l’écosystème Hadoop

1 Les modèles de calcul batch

Diviser pour mieux régner.

Le calcul dans un cluster exige que toutes les requêtes qui y arrivent soient totalement parallèles, c’est-à-dire que les tâches puissent s’exécuter de façon indépendante afin d’être réparties sur les nœuds du cluster. Si ce n’est pas le cas, il est impossible d’utiliser un cluster, encore moins un cluster Hadoop. Avant de penser à Hadoop, il faut donc commencer par se demander si le problème est parallélisable.

Par définition, tous les problèmes ne sont pas complètement parallélisables ; Google a créé le MapReduce pour répondre à des problématiques qui sont embarrasingly parallel. Contrairement à ce qu’on pourrait croire, cela ne veut pas dire « embarrassantes à paralléliser », mais plutôt « parallélisables à l’excès » : le MapReduce a été créé pour gérer l’exécution des problèmes qui sont très simples à paralléliser.

Un « problème facilement parallélisable » est un programme qui ne demande aucun effort particulier pour être découpé en tâches indépendantes. Par définition, ce type de problèmes s’exécute en batch, ce qui est plutôt une bonne nouvelle, puisque – dans la majorité des problématiques impliquant une grosse volumétrie des données – ces dernières ont une structure extrêmement régulière et qu’il n’y a pas d’exigence particulière sur les temps de réponse. Des exemples de telles problématiques incluent l’indexation des pages web, le reporting périodique, l’interrogation des modèles relationnels de données, les tests de performance, l’interrogation de graphes et l’analyse textuelle. Le MapReduce offre l’opportunité d’exploiter le parallélisme sur ces types de problématiques.

Cependant, toutes les problématiques ne sont pas simples à paralléliser. Les travaux d’apprentissage statistique, par exemple, exigent le passage itératif de l’algorithme sur les données, ce qui rend l’utilisation du MapReduce inadapté. Dans ce chapitre, nous allons vous expliquer le fonctionnement du MapReduce et des modèles alternatifs qui le complètent, en l’occurrence Mahout et Hama. L’objectif est que vous compreniez comment un problème « embarrasingly parallel » s’exécute dans le cluster.

Principes du traitement parallèle en batch

Avant d’entrer dans les détails du fonctionnement d’un modèle de calcul, il faut comprendre la notion de batch, puisque pratiquement tous les problèmes « embarrasingly parallel » s’exécutent sur ce mode.

Dans un ordinateur, l’endroit où les données sont stockées a une incidence vitale sur la capacité de paralléliser le traitement.

•Dans l’ordinateur, les données sont stockées soit sur le disque dur, soit en mémoire centrale (RAM). Lorsque les données sont chargées en RAM, le traitement est plus rapide, mais il est très difficile à paralléliser. De plus, compte tenu de la taille limitée de la RAM, le volume de données qu’on peut y analyser est limité.

Lorsqu’on traite les données à partir de la RAM, on fait de l’in-memory processing ou traitement en mémoire.

•Si les données sont stockées sur le disque dur, les traitements sont faciles à paralléliser ; on pourra traiter de plus gros volumes, mais les temps de réponse des traitements seront plus longs.

Lorsqu’on effectue un traitement à partir du disque dur, on fait ce qu’on appelle techniquement du batch processing, c’est-à-dire du traitement par lots ou traitement sur disque.

Dans ce chapitre, nous nous intéresserons aux principes du batch processing et à son impact sur le parallélisme des calculs, avant d’entrer dans les détails de l’in-memory processing au chapitre suivant.

Le traitement sur disque ou batch processing

Pour comprendre le traitement sur disque, il faut connaître les principes fondamentaux du traitement des données dans un ordinateur. Par principes, nous entendons des lois qui ne changent pas, ni avec le temps, ni avec la technologie. Quatre principes régissent le traitement de données dans un ordinateur.

Figure 1-1 – Architecture du traitement des données dans un ordinateur

•1^er principe : tout traitement informatique des données implique toujours la participation de trois composants de l’ordinateur : le disque dur, la mémoire centrale et le microprocesseur.

Comme le montre la figure 1-1, au départ de tout traitement informatique, il y a la donnée (par ricochet, le fichier contenant les données). Initialement stockée sur le disque dur, elle est ensuite transférée (on dit « chargée » ou « montée ») vers la mémoire centrale de l’ordinateur appelée RAM (Random Access Memory – mémoire à accès direct ou mémoire vive). Physiquement, la RAM a la forme d’une barrette. C’est à elle qu’on fait référence quand on parle de « mémoire ». Par la suite, la CPU (Central Processing Unit, ou microprocesseur) effectue le traitement spécifié par l’utilisateur sur les données dans la RAM. Enfin, les données traitées sont renvoyées sur le disque dur ; on dit qu’elles sont sérialisées ou qu’on les fait persister. En effet, contrairement à la RAM dont le stockage temporaire induit l’effacement des données après mise hors tension de l’ordinateur, le disque dur, quant à lui, conserve les données traitées.

•2^e principe : le microprocesseur traite toujours les données à partir de la RAM. Toujours !

Le microprocesseur se rend toujours dans la RAM pour effectuer les traitements (il y a accès directement) ; il ne peut pas recevoir directement les données venant du disque dur.

•3^e principe : la mémoire RAM garde son contenu le temps d’une session.

Au redémarrage de l’ordinateur, son contenu est vidé. Cela signifie que toute donnée en RAM, traitée ou non, doit être conservée sur le disque dur, sinon elle sera supprimée au démarrage de l’ordinateur. La RAM n’a pas été prévue pour un stockage permanent,...

Couverture
Le résumé et la biographie auteur
Page de titre
Copyright
Table des matières
Avant-propos
Notes de l’auteur
Remerciements
Introduction à l’écosystème Hadoop
Partie 1 : Les modèles de calcul de l’écosystème Hadoop
Partie 2 : Les abstractions des modèles de calcul d’Hadoop
Partie 3 : Le stockage de données en Hadoop
Partie 4 : La gestion du cluster Hadoop
Partie 5 : Le streaming en temps réel dans Hadoop
Partie 6 : Les outils annexes de l’écosystème Hadoop
Partie 7 : Adoption à grande échelle d’Hadoop
Conclusion générale de l’ouvrage
Votre avis compte !
Liens et références utiles
Index

Foire aux questions

Puis-je résilier à tout moment ?

Oui, vous pouvez résilier à tout moment à partir de l'onglet Abonnement dans les paramètres de votre compte sur le site Web de Perlego. Votre abonnement restera actif jusqu'à la fin de votre période de facturation actuelle. Découvrir comment résilier votre abonnement

Puis-je télécharger des livres ?

Non, les livres ne peuvent pas être téléchargés sous forme de fichiers externes, tels que des PDF, pour être utilisés en dehors de Perlego. Cependant, vous pouvez télécharger des livres dans l'application Perlego pour les lire hors ligne sur votre téléphone portable ou votre tablette. Apprendre à télécharger des livres hors ligne

Quelle est la différence entre les formules tarifaires ?

Perlego propose deux formules : Essential et Complete

Essential est idéal pour les apprenants et les professionnels qui aiment explorer une grande variété de sujets. Accédez à la Essential Library avec plus de 800 000 titres de confiance et best-sellers dans les domaines du business, du développement personnel et des sciences humaines. Inclut un temps de lecture illimité et la voix Standard Read Aloud.
Complete : Parfait pour les apprenants avancés et les chercheurs ayant besoin d'un accès total et sans restriction. Débloquez plus de 1,5 million de livres dans des centaines de sujets, y compris des titres académiques et spécialisés. Le forfait Complete inclut aussi des fonctionnalités avancées telles que Premium Read Aloud et Research Assistant.

Les deux formules sont disponibles avec des cycles de facturation mensuels, semestriels ou annuels.

Comment fonctionne Perlego ?

Nous sommes un service déabonnement à des manuels scolaires en ligne, qui vous permet d'accéder à une bibliothèque en ligne entière pour moins que le prix d'un seul livre par mois. Avec plus de 1,5 million de livres sur plus de 990 thèmes, nous avons ce qu'il vous faut ! Découvrir notre mission

Prenez-vous en charge la synthèse vocale ?

Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l'écouter. L'outil Écouter lit le texte à haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l'accélérer ou le ralentir. En savoir plus sur la fonctionnalité Écouter

Puis-je lire sur ma tablette ou mon smartphone ?

Oui ! Vous pouvez utiliser l'application Perlego sur les appareils iOS et Android pour lire à tout moment, n'importe où, même hors ligne. Parfait pour les trajets quotidiens ou lorsque vous êtes en déplacement.
Veuillez noter que nous ne pouvons pas prendre en charge les appareils fonctionnant sur iOS 13 et Android 7 ou versions antérieures. En savoir plus sur l'utilisation de l'application

Est-ce que Maîtrisez l'utilisation des technologies Hadoop est un PDF/ePUB en ligne ?

Oui, vous pouvez accéder à Maîtrisez l'utilisation des technologies Hadoop de Juvénal Chokogoue aux formats PDF et/ou ePub, ainsi qu'à d'autres livres populaires dans Informatique et Extraction de données. Nous avons plus de 1,5 million de livres disponibles dans notre catalogue pour vous.