eBook - ePub

Data Science : fondamentaux et études de cas

Name: Data Science : fondamentaux et études de cas
ISBN: 9782212315332

Machine Learning avec Python et R

Michel Lutz,

Eric Biernat,

296 pages
French
ePUB (adaptée aux mobiles)
Disponible sur iOS et Android

eBook - ePub

Data Science : fondamentaux et études de cas

Machine Learning avec Python et R

Michel Lutz,

Eric Biernat,

À propos de ce livre

Nous vivons une époque très excitante, qui ramène l'analyse de données et les méthodes quantitatives au coeur de la société. L'aboutissement de nombreux projets de recherche, la puissance de calcul informatique disponible et des données à profusion permettent aujourd'hui d'incroyables réalisations, grâce au travail des data scientists.

Un livre de référence pour les data scientists

La data science est l'art de traduire des problèmes industriels, sociaux, scientifiques, ou de toute autre nature, en problèmes de modélisation quantitative, pouvant être résolus par des algorithmes de traitement de données. Cela passe par une réflexion structurée, devant faire en sorte que se rencontrent problèmes humains, outils techniques/informatiques et méthodes statistiques/algorithmiques. Chaque projet de data science est une petite aventure, qui nécessite de partir d'un problème opérationnel souvent flou, à une réponse formelle et précise, qui aura des conséquences réelles sur le quotidien d'un nombre plus ou moins important de personnes.

Éric Biernat et Michel Lutz proposent de vous guider dans cette aventure. Ils vous feront visiter les vastes espaces de la data science moderne, de plus en plus présente dans notre société et qui fait tant parler d'elle, parfois par l'intermédiaire d'un sujet qui lui est corollaire, les big data.

Des études de cas pour devenir kaggle master

Loin des grands discours abstraits, les auteurs vous feront découvrir, claviers à la main, les pratiques de leur métier de data scientist chez OCTO Technology, l'un des leaders français du domaine. Et vous mettrez également la main à la pâte : avec juste ce qu'il faut de théorie pour comprendre ce qu'impliquent les méthodes mathématiques utilisées, mais surtout avec votre ordinateur personnel, quelques logiciels gratuits et puissants, ainsi qu'un peu de réflexion, vous allez participer activement à cette passionnante exploration !

À qui s'adresse cet ouvrage ?

Aux développeurs, statisticiens, étudiants et chefs de projets ayant à résoudre des problèmes de data science.

Aux data scientists, mais aussi à toute personne curieuse d'avoir une vue d'ensemble de l'état de l'art du machine learning.

Approuvé par les 375,005 étudiants

Accès à plus d'un million de titres pour un prix mensuel raisonnable.

Étudiez plus efficacement en utilisant nos outils d'étude.

Éditeur

Eyrolles

Année

2015

Imprimer l'ISBN

9782212142433

ISBN de l'eBook

9782212315332

Édition

Sujet

Computer Science

Sujet

Data Modelling & Design

TROISIÈME PARTIE

La data science en pratique : au-delà des algorithmes

Sous-partie 1

Quelques concepts généraux

14 Évaluer un modèle

Introduction

Si vous avez lu la partie précédente, vous savez désormais comment construire de beaux modèles de machine learning. Vous l’avez vu, ce n’est pas si difficile et vous vous sentez certainement prêt à aller en découdre sur l’un des challenges Kaggle en cours. Mais attention, prenez encore quelques instants pour lire ce qui suit afin d’éviter de tomber dans l’un des pièges classiques du débutant. Souvenez-vous d’un phénomène que nous avons évoqué précédemment, notamment lorsque nous avons parlé de la régression polynomiale : l’overfitting.

En effet, il est souvent très facile de construire un modèle qui restitue très bien les données utilisées pour son estimation. Il est néanmoins bien plus difficile de faire en sorte que ce modèle puisse se généraliser, c’est-à-dire qu’il soit capable de prédire de façon satisfaisante de nouvelles observations, non utilisées lors du calcul du modèle. Pour trouver un juste équilibre entre apprentissage du modèle et capacité prédictive, il est indispensable de mettre en place un dispositif qui permette d’évaluer globalement la qualité d’un modèle.

La présentation de ce dispositif est l’objet de ce chapitre, composé de deux parties. La première introduit la notion de validation croisée, qui est un dispositif d’évaluation d’un modèle ; la seconde présente un ensemble d’indicateurs (aussi appelés métriques de performance) que vous pourrez utiliser pour mesurer effectivement la qualité de vos modèles.

La validation croisée

De la nécessité de diviser vos données

À partir d’un jeu de données initial, que feriez-vous pour à la fois constituer un modèle et tester sa capacité prédictive sur des données non utilisées pour la modélisation (sans attendre de nouvelles observations, bien sûr !) ? La première réponse qui vient à l’esprit est assez évidente : diviser les données en deux groupes. L’un des groupes est utilisé pour la modélisation, l’autre est utilisé pour effectuer une prévision sur des données « fraîches ». C’est effectivement l’approche de base que l’on peut adopter. On crée un échantillon d’entraînement, sur lequel on va constituer le modèle, et un échantillon de test, sur lequel on va tester le modèle. Pour évaluer la qualité du modèle et de sa performance en prévision, on utilise une métrique de performance P (nous en reparlerons dans la deuxième partie de ce chapitre). Bien évidemment, on se doute que P_test sera inférieur à P_{entraînement}. En pratique, on a l’habitude de prendre 70 % des données pour l’échantillon d’entraînement (appelons-le m_{entraînement}) et 30 % des données pour l’échantillon de test (m_test).

Voilà pour l’approche de base… Mais si on allait plus loin ? En effet, on pourrait avoir envie d’utiliser cette séparation des données pour faire le meilleur modèle possible. On pourrait ainsi essayer différents choix de variables, plusieurs paramétrages d’un modèle (rappelez-vous les différentes manières de customiser les modèles) sur m_{entraînement} et voir lequel performe le mieux sur m_test. C’est une idée effectivement perspicace, puisqu’elle nous permettrait de trouver celui, parmi tous les possibles, qui va maximiser P_test (car c’est généralement ça que l’on attend d’un modèle). De plus, comme l’indique Hyndman dans son blog¹, c’est une approche pragmatique pour choisir un modèle : efficace, concrète, et bien plus simple que l’emploi de tests statistiques de comparaison de modèles.

Néanmoins, pourrait-on alors dire à juste titre qu’on a bien testé que le modèle se généralise bien ? Pas vraiment, puisqu’il aurait été choisi de façon à maximiser la qualité de prévision sur m_test, donc il ne serait plus complètement vrai d’affirmer qu’il a été testé sur des données toutes fraîches et innocentes !

Pour sortir de ce dilemme, le data scientist choisit généralement de diviser ses données en trois :

• un jeu d’entraînement, bien sûr (m_{entraînement}) ;

• un jeu dit de validation (m_validation) : celui-ci va être utilisé pour tester les différents modèles paramétrés sur m_{entraînement} (il remplace le m_test précédent) ;

• et un vrai jeu de test (m_test), qu’on garde de côté et qui ne sera utilisé que tout à la fin du processus de modélisation, afin de tester le plus honnêtement possible la capacité de généralisation du modèle retenu.

La qualité de l’ajustement ou de la prévision est calculée pour chacun des jeux de données, à partir de la métrique P retenue. En pratique, on prend souvent 60 % des données pour m_{entraînement}, 20 % pour m_validation et 20 % pour m_test. Ces principes sont résumés dans la figure 14-1.

Figure 14-1 – Les notions de jeux d’entraînement, de validation, de test

Comme l’explique Hyndman dans son blog déjà cité, ces questions de séparation des données préoccupent plus les praticiens du machine learning que les statisticiens plus traditionnels. Cela peut s’entrendre : l’objectif du statisticien est avant tout de comprendre les processus stochastiques à l’œuvre dans les données, en essayant de contrôler les effets des variables du modèle. En machine learning, on se préoccupe moins de ces questions que de la capacité du modèle à faire la meilleure prédiction possible sur de nouvelles données, quitte à utiliser un modèle boîte noire.

La mécanique de la validation peut sembler bien évidente, pour ne pas dire basique : on coupe le jeu de données en trois paquets de données pour entraîner, valider et tester. En réalité, il existe beaucoup d’alternatives permettant de sophistiquer cette approche : on parle alors de validation croisée.

La validation croisée

Les questions liées à la validation d’un modèle peuvent vite devenir très complexes. Nous n’en aborderons quelques techniques que très superficiellement ici. Notre objectif est avant tout de vous faire comprendre que cette étape est très importante pour la bonne résolution d’un problème d’analyse de données. Il est donc nécessaire de lui consacre...

Couverture
Le résumé et la biographie auteur
Page de titre
Copyright
Préface
Table des matières
Avant-propos
Première partie : Le B.A.-ba du data scientist
Deuxième partie : Les algorithmes et leurs usages : visite guidée
Troisième partie : La data science en pratique : au-delà des algorithmes
Conclusion générale
Index

Foire aux questions

Oui, vous pouvez résilier à tout moment à partir de l'onglet Abonnement dans les paramètres de votre compte sur le site Web de Perlego. Votre abonnement restera actif jusqu'à la fin de votre période de facturation actuelle. Découvrir comment résilier votre abonnement

Non, les livres ne peuvent pas être téléchargés sous forme de fichiers externes, tels que des PDF, pour être utilisés en dehors de Perlego. Cependant, vous pouvez télécharger des livres dans l'application Perlego pour les lire hors ligne sur votre téléphone portable ou votre tablette. Apprendre à télécharger des livres hors ligne

Perlego propose deux abonnements : Essentiel et Complet

Essentiel est idéal pour les étudiants et les professionnels qui aiment explorer un large éventail de sujets. Accédez à la bibliothèque Essentiel comprenant plus de 800 000 titres de référence et best-sellers dans les domaines du commerce, du développement personnel et des sciences humaines. Il comprend un temps de lecture illimité et la voix standard de la fonction Écouter.
Complet est parfait pour les étudiants avancés et les chercheurs qui ont besoin d'un accès complet et illimité. Accédez à plus de 1,4 million de livres sur des centaines de sujets, y compris des titres académiques et spécialisés. L'abonnement Complet comprend également des fonctionnalités avancées telles que la fonction Écouter Premium et l'Assistant de recherche.

Les deux abonnements sont disponibles avec des cycles de facturation mensuels, semestriels ou annuels.

Nous sommes un service d'abonnement à des ouvrages universitaires en ligne, où vous pouvez accéder à toute une bibliothèque pour un prix inférieur à celui d'un seul livre par mois. Avec plus d'un million de livres sur plus de 990 sujets, nous avons ce qu'il vous faut ! En savoir plus sur notre mission

Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l'écouter. L'outil Écouter lit le texte à haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l'accélérer ou le ralentir. En savoir plus sur la fonctionnalité Écouter

Oui ! Vous pouvez utiliser l'application Perlego sur les appareils iOS et Android pour lire à tout moment, n'importe où, même hors ligne. Parfait pour les trajets quotidiens ou lorsque vous êtes en déplacement.
Veuillez noter que nous ne pouvons pas prendre en charge les appareils fonctionnant sur iOS 13 et Android 7 ou versions antérieures. En savoir plus sur l'utilisation de l'application

Oui, vous pouvez accéder à Data Science : fondamentaux et études de cas par Michel Lutz,Eric Biernat en format PDF et/ou ePUB ainsi qu'à d'autres livres populaires dans Computer Science et Data Modelling & Design. Nous disposons de plus d'un million d'ouvrages à découvrir dans notre catalogue.

À propos de ce livre

Un livre de référence pour les data scientists

Des études de cas pour devenir kaggle master

À qui s'adresse cet ouvrage ?

Approuvé par les 375,005 étudiants

Informations

TROISIÈME PARTIE

La data science en pratique : au-delà des algorithmes

Sous-partie 1

Quelques concepts généraux

14

Évaluer un modèle

Introduction

La validation croisée

De la nécessité de diviser vos données

La validation croisée

Table des matières

Foire aux questions