eBook - ePub

Einführung in Data Science

Name: Einführung in Data Science
Author: Joel Grus, Kristian Rother

Grundprinzipien der Datenanalyse mit Python

Joel Grus, Kristian Rother

Partager le livre

401 pages
German
ePUB (adapté aux mobiles)
Disponible sur iOS et Android

eBook - ePub

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Joel Grus, Kristian Rother

Détails du livre

Aperçu du livre

Table des matières

Citations

À propos de ce livre

Neuauflage des Standardwerks, jetzt zu Python 3.6- Der idealer Einstieg in Data Science – didaktisch klug angelegt und gut nachvollziehbar- Bietet mathematisches Hintergrundwissen und einen Crashkurs für Python- Enthält neues Material zu Deep Learning, Statistik und Natural Language ProcessingDieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weit verbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.

Foire aux questions

Comment puis-je résilier mon abonnement ?

Il vous suffit de vous rendre dans la section compte dans paramètres et de cliquer sur « Résilier l’abonnement ». C’est aussi simple que cela ! Une fois que vous aurez résilié votre abonnement, il restera actif pour le reste de la période pour laquelle vous avez payé. Découvrez-en plus ici.

Puis-je / comment puis-je télécharger des livres ?

Pour le moment, tous nos livres en format ePub adaptés aux mobiles peuvent être téléchargés via l’application. La plupart de nos PDF sont également disponibles en téléchargement et les autres seront téléchargeables très prochainement. Découvrez-en plus ici.

Quelle est la différence entre les formules tarifaires ?

Les deux abonnements vous donnent un accès complet à la bibliothèque et à toutes les fonctionnalités de Perlego. Les seules différences sont les tarifs ainsi que la période d’abonnement : avec l’abonnement annuel, vous économiserez environ 30 % par rapport à 12 mois d’abonnement mensuel.

Qu’est-ce que Perlego ?

Nous sommes un service d’abonnement à des ouvrages universitaires en ligne, où vous pouvez accéder à toute une bibliothèque pour un prix inférieur à celui d’un seul livre par mois. Avec plus d’un million de livres sur plus de 1 000 sujets, nous avons ce qu’il vous faut ! Découvrez-en plus ici.

Prenez-vous en charge la synthèse vocale ?

Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l’écouter. L’outil Écouter lit le texte à haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l’accélérer ou le ralentir. Découvrez-en plus ici.

Est-ce que Einführung in Data Science est un PDF/ePUB en ligne ?

Oui, vous pouvez accéder à Einführung in Data Science par Joel Grus, Kristian Rother en format PDF et/ou ePUB ainsi qu’à d’autres livres populaires dans Ciencia de la computación et Programación en Python. Nous disposons de plus d’un million d’ouvrages à découvrir dans notre catalogue.

Informations

Éditeur

O'Reilly

Année

2019

ISBN

9783960103370

Édition

Sujet

Ciencia de la computación

Sous-sujet

Programación en Python

Vorwort zur 1. Auflage

Data Science

Data Scientist wurde bereits als der »sexiest Job des 21. Jahrhunderts« (https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century) bezeichnet, vermutlich von jemandem, der nie eine Feuerwache besucht hat. Nichtsdestotrotz ist Data Science ein aktuelles und wachsendes Feld, und man muss kein Meisterdetektiv sein, um zu prognostizieren, dass wir in den nächsten zehn Jahren Millionen und Abermillionen mehr Data Scientists benötigen werden, als es zurzeit gibt.

Aber was ist Data Science eigentlich? Schließlich können wir keine Data Scientists ausbilden, wenn wir Data Science nicht einmal definieren können. Laut einem in der Branche bekannten Venn-Diagramm (http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram) setzt sich Data Science zusammen aus:

der Fähigkeit zu hacken,
dem Wissen über Mathematik und Statistik sowie
substanziellem Expertenwissen.

Obwohl ich ursprünglich ein Buch über alle drei Dinge schreiben wollte, wurde mir schnell klar, dass allein eine gründliche Abhandlung über das »substanzielle Expertenwissen« Zehntausende Seiten benötigen würde. Daher beschloss ich, mich auf die ersten beiden Punkte zu beschränken. Mein Ziel ist es, Ihre Fähigkeit zu hacken so zu entwickeln, dass Sie gleich damit beginnen können, Data Science praktisch anzuwenden. Mein Ziel ist es ebenfalls, Sie mit Mathematik und Statistik im Zentrum von Data Science vertraut zu machen.

Das ist ein recht ambitioniertes Ziel für ein Buch. Der beste Weg, hacken zu lernen, ist, Dinge zu hacken. Beim Lesen dieses Buchs werden Sie einen guten Einblick darin bekommen, auf welchem Weg ich Dinge hacke. Das muss nicht zwangsläufig der beste Weg für Sie sein, Dinge zu hacken. Sie werden Kenntnisse über einige von mir genutzte Werkzeuge erlangen, die nicht unbedingt die bestmöglichen Werkzeuge für Sie sind. Sie werden kennenlernen, wie ich mich Datenproblemen nähere, für Sie gibt es aber vielleicht bessere Ansätze. Meine Absicht (und Hoffnung) ist, dass meine Beispiele Sie beflügeln werden, Dinge selbst auf Ihre eigene Weise auszuprobieren. Sämtlicher Code und alle Daten zu diesem Buch sind auf GitHub (https://github.com/joelgrus/data-science-from-scratch) verfügbar, sodass Sie gleich beginnen können.

Analog dazu besteht der beste Weg, Mathematik zu lernen, darin, Mathematik zu betreiben. Dieses Buch ist aus Rücksicht auf den Leser kein Mathematikbuch geworden, und die meiste Zeit werden wir keine »Mathematik betreiben«. Allerdings können Sie sich ohne Grundkenntnisse in Wahrscheinlichkeit, Statistik und linearer Algebra nicht ernsthaft mit Data Science auseinandersetzen. Daher werden wir an angemessener Stelle in mathematische Formeln, Denkweisen, Axiome und in die Zeichentrickversionen großer mathematischer Konzepte eintauchen. Ich hoffe, Sie fürchten sich nicht davor, mit mir hineinzuspringen.

Im Verlauf der Kapitel hoffe ich, Ihnen ein Gefühl für den Spaß am Spielen mit Daten zu vermitteln, weil das Spielen mit Daten eben Spaß macht! (Besonders im Vergleich zu einigen Alternativen wie dem Vorbereiten der Steuererklärung oder dem Kohlebergbau.)

Bei null starten

Es gibt etliche Programmbibliotheken, Frameworks, Module und Werkzeugsammlungen, die die verbreitetsten (und auch die exotischsten) Algorithmen und Techniken für Data Science beinhalten. Sobald Sie ein Data Scientist geworden sind, haben Sie eine innige Freundschaft mit NumPy, scikit-learn, pandas und einer Palette weiterer Bibliotheken geschlossen. Diese eignen sich gut, um Data Science zu betreiben. Sie sind aber auch hilfreich, wenn es darum geht, mit Data Science zu beginnen, ohne überhaupt etwas davon zu verstehen.

In diesem Buch werden wir uns Data Science von Grund auf nähern. Das bedeutet, wir werden uns Werkzeuge selbst bauen und Algorithmen von Hand implementieren, um sie besser zu verstehen. Ich habe viel über klare, gut kommentierte und verständliche Implementierungen und Beispiele nachgedacht. In den meisten Fällen werden unsere selbst gebauten Werkzeuge erhellend, aber unpraktisch sein. Sie werden für kleine Sandkastendatensätze gut funktionieren, aber an solchen mit »Internetausmaßen« kläglich scheitern.

Im Verlauf des Buchs werde ich Sie auf Bibliotheken hinweisen, mit denen Sie diese Techniken auf größere Datensätze anwenden können. Wir werden diese hier aber nicht verwenden.

Es gibt eine gesunde Diskussion darüber, welche die beste Programmiersprache ist, um Data Science zu lernen. Viele meinen, dies sei die Statistikprogrammiersprache R. (Wir nennen sie die »Leute auf dem Holzweg«.) Einige andere empfehlen Java oder Scala. Meiner Meinung nach ist jedoch Python die erste Wahl.

Python besitzt mehrere Eigenschaften, die sie zu einer gut geeigneten Sprache zum Lernen (und Betreiben) von Data Science machen:

Python ist kostenlos.
Es ist relativ einfach, darin zu programmieren (und insbesondere den Code zu verstehen).
Es gibt zahlreiche nützliche Bibliotheken für Data Science in Python.

Ich zögere, Python meine Lieblingsprogrammiersprache zu nennen. Es gibt andere Sprachen, die ich angenehmer oder besser entworfen finde oder bei denen es mir einfach mehr Spaß macht, Code zu schreiben. Dennoch lande ich bei jedem neuen Data-Science-Projekt wieder bei Python. Jedes Mal, wenn ich schnell einen lauffähigen Prototyp schreiben muss, lande ich bei Python. Und jedes Mal, wenn ich Konzepte von Data Science klar und verständlich demonstrieren möchte, lande ich bei Python. Deshalb verwendet dieses Buch Python.

Das Ziel dieses Buchs ist nicht, Ihnen Python beizubringen (aber es ist so gut wie sicher, dass Sie beim Lesen etwas Python lernen werden). Ich werde Sie begleiten durch einen Crashkurs von der Länge eines Kapitels, der die für unsere Zwecke wichtigsten Eigenschaften hervorhebt. Sollten Sie aber gar nichts über das Programmieren in Python (oder über das Programmieren im Allgemeinen) wissen, benötigen Sie möglicherweise begleitend zum Buch ein Tutorial wie etwa »Programmieren lernen mit Python« von Allen B. Downey aus dem O’Reilly Verlag.

Der Rest unserer Einführung in Data Science wird genau diesen Ansatz wählen – dort in die Details gehen, wo es unausweichlich oder erhellend ist, und ansonsten Ihnen die Details zur eigenen Erkundung überlassen (oder zum Nachschlagen auf Wikipedia).

Im Verlauf der Jahre habe ich so manchen Data Scientist ausgebildet. Auch wenn nicht alle von ihnen weltumwälzende Daten-Ninja-Rockstars geworden sind, habe ich alle als bessere Data Scientists entlassen, als ich sie ursprünglich vorfand. Dabei habe ich den Glauben gewonnen, dass jeder mit etwas mathematischer Begabung und ein paar Programmierfähigkeiten sämtliche Grundvoraussetzungen zum Betreiben von Data Science erfüllt. Notwendig sind ein aufgeschlossener Geist, die Bereitschaft zu harter Arbeit und dieses Buch. Darum dieses Buch.

KAPITEL 1

Einführung

»Daten! Daten! Daten!«, schrie er ungeduldig. »Ohne Lehm kann ich keine Ziegel herstellen.«

– Arthur Conan Doyle

Der Aufstieg der Daten

Wir leben in einer Welt, die in Daten ertrinkt. Webseiten erfassen jeden Klick jedes Benutzers. Ihr Smartphone speichert Ihren Aufenthaltsort und Ihr Tempo jede einzelne Sekunde des Tages. »Quantified Selfer« tragen aufgemotzte Schrittmesser, die Herzfrequenz, Bewegungsgewohnheiten, Ernährung und Schlafzyklen registrieren. Intelligente Autos sammeln Informationen über Fahrgewohnheiten, intelligente Häuser sammeln Informationen über Lebensgewohnheiten, und intelligente Marketingleute sammeln Konsumgewohnheiten. Das Internet selbst stellt ein gewaltiges Netzwerk des Wissens dar, das (unter anderem) eine enorme Enzyklopädie mit Querverweisen darstellt – domänenspezifische Datenbanken über Filme, Musik, Sportergebnisse, Flippergeräte, Memes und Cocktails, außerdem viel zu viele Behördenstatistiken (einige davon sind sogar wahr!) von viel zu vielen Regierungen, bis Ihnen schwindelig wird.

Vergraben in diesen Daten sind die Antworten auf unzählige Fragen, die niemand zuvor zu fragen wagte. In diesem Buch werden Sie lernen, wie man sie findet.

Was ist Data Science?

Ein Witz sagt, dass ein Data Scientist jemand ist, der mehr über Statistik weiß als ein Informatiker und mehr über Informatik als ein Statistiker. (Ich habe nicht gesagt, dass es ein guter Witz ist.) Tatsächlich sind einige Data Scientists – für alle praktischen Belange – Statistiker, während andere kaum von Softwareentwicklern zu unterscheiden sind. Einige sind Experten für maschinelles Lernen, während andere nicht einmal den Weg zum Kühlschrank maschinell lernen könnten. Einige haben Doktortitel und eindrucksvolle Publikationslisten, während andere nie einen akademischen Fachartikel gelesen haben (Schande über sie). Kurz, egal wie Sie Data Science definieren, Sie werden Praktiker finden, auf die diese Definition überhaupt nicht passt.

Das soll uns aber nicht davon abhalten, es zu versuchen. Wir sagen einfach, dass ein Data Scientist jemand ist, der Erkenntnisse aus ch...