Einführung in Data Science
eBook - ePub

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Joel Grus, Kristian Rother

Condividi libro
  1. 401 pagine
  2. German
  3. ePUB (disponibile sull'app)
  4. Disponibile su iOS e Android
eBook - ePub

Einführung in Data Science

Grundprinzipien der Datenanalyse mit Python

Joel Grus, Kristian Rother

Dettagli del libro
Anteprima del libro
Indice dei contenuti
Citazioni

Informazioni sul libro

Neuauflage des Standardwerks, jetzt zu Python 3.6- Der idealer Einstieg in Data Science – didaktisch klug angelegt und gut nachvollziehbar- Bietet mathematisches Hintergrundwissen und einen Crashkurs für Python- Enthält neues Material zu Deep Learning, Statistik und Natural Language ProcessingDieses Buch führt Sie in Data Science ein, indem es grundlegende Prinzipien der Datenanalyse erläutert und Ihnen geeignete Techniken und Werkzeuge vorstellt. Sie lernen nicht nur, wie Sie Bibliotheken, Frameworks, Module und Toolkits konkret einsetzen, sondern implementieren sie auch selbst. Dadurch entwickeln Sie ein tieferes Verständnis für die Zusammenhänge und erfahren, wie essenzielle Tools und Algorithmen der Datenanalyse im Kern funktionieren.Falls Sie Programmierkenntnisse und eine gewisse Sympathie für Mathematik mitbringen, unterstützt Joel Grus Sie dabei, mit den mathematischen und statistischen Grundlagen der Data Science vertraut zu werden und sich Programmierfähigkeiten anzueignen, die Sie für die Praxis benötigen. Dabei verwendet er Python: Die weit verbreitete Sprache ist leicht zu erlernen und bringt zahlreiche Bibliotheken für Data Science mit.

Domande frequenti

Come faccio ad annullare l'abbonamento?
È semplicissimo: basta accedere alla sezione Account nelle Impostazioni e cliccare su "Annulla abbonamento". Dopo la cancellazione, l'abbonamento rimarrà attivo per il periodo rimanente già pagato. Per maggiori informazioni, clicca qui
È possibile scaricare libri? Se sì, come?
Al momento è possibile scaricare tramite l'app tutti i nostri libri ePub mobile-friendly. Anche la maggior parte dei nostri PDF è scaricabile e stiamo lavorando per rendere disponibile quanto prima il download di tutti gli altri file. Per maggiori informazioni, clicca qui
Che differenza c'è tra i piani?
Entrambi i piani ti danno accesso illimitato alla libreria e a tutte le funzionalità di Perlego. Le uniche differenze sono il prezzo e il periodo di abbonamento: con il piano annuale risparmierai circa il 30% rispetto a 12 rate con quello mensile.
Cos'è Perlego?
Perlego è un servizio di abbonamento a testi accademici, che ti permette di accedere a un'intera libreria online a un prezzo inferiore rispetto a quello che pagheresti per acquistare un singolo libro al mese. Con oltre 1 milione di testi suddivisi in più di 1.000 categorie, troverai sicuramente ciò che fa per te! Per maggiori informazioni, clicca qui.
Perlego supporta la sintesi vocale?
Cerca l'icona Sintesi vocale nel prossimo libro che leggerai per verificare se è possibile riprodurre l'audio. Questo strumento permette di leggere il testo a voce alta, evidenziandolo man mano che la lettura procede. Puoi aumentare o diminuire la velocità della sintesi vocale, oppure sospendere la riproduzione. Per maggiori informazioni, clicca qui.
Einführung in Data Science è disponibile online in formato PDF/ePub?
Sì, puoi accedere a Einführung in Data Science di Joel Grus, Kristian Rother in formato PDF e/o ePub, così come ad altri libri molto apprezzati nelle sezioni relative a Ciencia de la computación e Programación en Python. Scopri oltre 1 milione di libri disponibili nel nostro catalogo.

Informazioni

Editore
O'Reilly
Anno
2019
ISBN
9783960103370

Vorwort zur 1. Auflage

Data Science

Data Scientist wurde bereits als der »sexiest Job des 21. Jahrhunderts« (https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century) bezeichnet, vermutlich von jemandem, der nie eine Feuerwache besucht hat. Nichtsdestotrotz ist Data Science ein aktuelles und wachsendes Feld, und man muss kein Meisterdetektiv sein, um zu prognostizieren, dass wir in den nächsten zehn Jahren Millionen und Abermillionen mehr Data Scientists benötigen werden, als es zurzeit gibt.
Aber was ist Data Science eigentlich? Schließlich können wir keine Data Scientists ausbilden, wenn wir Data Science nicht einmal definieren können. Laut einem in der Branche bekannten Venn-Diagramm (http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram) setzt sich Data Science zusammen aus:
  • der Fähigkeit zu hacken,
  • dem Wissen über Mathematik und Statistik sowie
  • substanziellem Expertenwissen.
Obwohl ich ursprünglich ein Buch über alle drei Dinge schreiben wollte, wurde mir schnell klar, dass allein eine gründliche Abhandlung über das »substanzielle Expertenwissen« Zehntausende Seiten benötigen würde. Daher beschloss ich, mich auf die ersten beiden Punkte zu beschränken. Mein Ziel ist es, Ihre Fähigkeit zu hacken so zu entwickeln, dass Sie gleich damit beginnen können, Data Science praktisch anzuwenden. Mein Ziel ist es ebenfalls, Sie mit Mathematik und Statistik im Zentrum von Data Science vertraut zu machen.
Das ist ein recht ambitioniertes Ziel für ein Buch. Der beste Weg, hacken zu lernen, ist, Dinge zu hacken. Beim Lesen dieses Buchs werden Sie einen guten Einblick darin bekommen, auf welchem Weg ich Dinge hacke. Das muss nicht zwangsläufig der beste Weg für Sie sein, Dinge zu hacken. Sie werden Kenntnisse über einige von mir genutzte Werkzeuge erlangen, die nicht unbedingt die bestmöglichen Werkzeuge für Sie sind. Sie werden kennenlernen, wie ich mich Datenproblemen nähere, für Sie gibt es aber vielleicht bessere Ansätze. Meine Absicht (und Hoffnung) ist, dass meine Beispiele Sie beflügeln werden, Dinge selbst auf Ihre eigene Weise auszuprobieren. Sämtlicher Code und alle Daten zu diesem Buch sind auf GitHub (https://github.com/joelgrus/data-science-from-scratch) verfügbar, sodass Sie gleich beginnen können.
Analog dazu besteht der beste Weg, Mathematik zu lernen, darin, Mathematik zu betreiben. Dieses Buch ist aus Rücksicht auf den Leser kein Mathematikbuch geworden, und die meiste Zeit werden wir keine »Mathematik betreiben«. Allerdings können Sie sich ohne Grundkenntnisse in Wahrscheinlichkeit, Statistik und linearer Algebra nicht ernsthaft mit Data Science auseinandersetzen. Daher werden wir an angemessener Stelle in mathematische Formeln, Denkweisen, Axiome und in die Zeichentrickversionen großer mathematischer Konzepte eintauchen. Ich hoffe, Sie fürchten sich nicht davor, mit mir hineinzuspringen.
Im Verlauf der Kapitel hoffe ich, Ihnen ein Gefühl für den Spaß am Spielen mit Daten zu vermitteln, weil das Spielen mit Daten eben Spaß macht! (Besonders im Vergleich zu einigen Alternativen wie dem Vorbereiten der Steuererklärung oder dem Kohlebergbau.)

Bei null starten

Es gibt etliche Programmbibliotheken, Frameworks, Module und Werkzeugsammlungen, die die verbreitetsten (und auch die exotischsten) Algorithmen und Techniken für Data Science beinhalten. Sobald Sie ein Data Scientist geworden sind, haben Sie eine innige Freundschaft mit NumPy, scikit-learn, pandas und einer Palette weiterer Bibliotheken geschlossen. Diese eignen sich gut, um Data Science zu betreiben. Sie sind aber auch hilfreich, wenn es darum geht, mit Data Science zu beginnen, ohne überhaupt etwas davon zu verstehen.
In diesem Buch werden wir uns Data Science von Grund auf nähern. Das bedeutet, wir werden uns Werkzeuge selbst bauen und Algorithmen von Hand implementieren, um sie besser zu verstehen. Ich habe viel über klare, gut kommentierte und verständliche Implementierungen und Beispiele nachgedacht. In den meisten Fällen werden unsere selbst gebauten Werkzeuge erhellend, aber unpraktisch sein. Sie werden für kleine Sandkastendatensätze gut funktionieren, aber an solchen mit »Internetausmaßen« kläglich scheitern.
Im Verlauf des Buchs werde ich Sie auf Bibliotheken hinweisen, mit denen Sie diese Techniken auf größere Datensätze anwenden können. Wir werden diese hier aber nicht verwenden.
Es gibt eine gesunde Diskussion darüber, welche die beste Programmiersprache ist, um Data Science zu lernen. Viele meinen, dies sei die Statistikprogrammiersprache R. (Wir nennen sie die »Leute auf dem Holzweg«.) Einige andere empfehlen Java oder Scala. Meiner Meinung nach ist jedoch Python die erste Wahl.
Python besitzt mehrere Eigenschaften, die sie zu einer gut geeigneten Sprache zum Lernen (und Betreiben) von Data Science machen:
  • Python ist kostenlos.
  • Es ist relativ einfach, darin zu programmieren (und insbesondere den Code zu verstehen).
  • Es gibt zahlreiche nützliche Bibliotheken für Data Science in Python.
Ich zögere, Python meine Lieblingsprogrammiersprache zu nennen. Es gibt andere Sprachen, die ich angenehmer oder besser entworfen finde oder bei denen es mir einfach mehr Spaß macht, Code zu schreiben. Dennoch lande ich bei jedem neuen Data-Science-Projekt wieder bei Python. Jedes Mal, wenn ich schnell einen lauffähigen Prototyp schreiben muss, lande ich bei Python. Und jedes Mal, wenn ich Konzepte von Data Science klar und verständlich demonstrieren möchte, lande ich bei Python. Deshalb verwendet dieses Buch Python.
Das Ziel dieses Buchs ist nicht, Ihnen Python beizubringen (aber es ist so gut wie sicher, dass Sie beim Lesen etwas Python lernen werden). Ich werde Sie begleiten durch einen Crashkurs von der Länge eines Kapitels, der die für unsere Zwecke wichtigsten Eigenschaften hervorhebt. Sollten Sie aber gar nichts über das Programmieren in Python (oder über das Programmieren im Allgemeinen) wissen, benötigen Sie möglicherweise begleitend zum Buch ein Tutorial wie etwa »Programmieren lernen mit Python« von Allen B. Downey aus dem O’Reilly Verlag.
Der Rest unserer Einführung in Data Science wird genau diesen Ansatz wählen – dort in die Details gehen, wo es unausweichlich oder erhellend ist, und ansonsten Ihnen die Details zur eigenen Erkundung überlassen (oder zum Nachschlagen auf Wikipedia).
Im Verlauf der Jahre habe ich so manchen Data Scientist ausgebildet. Auch wenn nicht alle von ihnen weltumwälzende Daten-Ninja-Rockstars geworden sind, habe ich alle als bessere Data Scientists entlassen, als ich sie ursprünglich vorfand. Dabei habe ich den Glauben gewonnen, dass jeder mit etwas mathematischer Begabung und ein paar Programmierfähigkeiten sämtliche Grundvoraussetzungen zum Betreiben von Data Science erfüllt. Notwendig sind ein aufgeschlossener Geist, die Bereitschaft zu harter Arbeit und dieses Buch. Darum dieses Buch.

KAPITEL 1

Einführung

»Daten! Daten! Daten!«, schrie er ungeduldig. »Ohne Lehm kann ich keine Ziegel herstellen.«
– Arthur Conan Doyle

Der Aufstieg der Daten

Wir leben in einer Welt, die in Daten ertrinkt. Webseiten erfassen jeden Klick jedes Benutzers. Ihr Smartphone speichert Ihren Aufenthaltsort und Ihr Tempo jede einzelne Sekunde des Tages. »Quantified Selfer« tragen aufgemotzte Schrittmesser, die Herzfrequenz, Bewegungsgewohnheiten, Ernährung und Schlafzyklen registrieren. Intelligente Autos sammeln Informationen über Fahrgewohnheiten, intelligente Häuser sammeln Informationen über Lebensgewohnheiten, und intelligente Marketingleute sammeln Konsumgewohnheiten. Das Internet selbst stellt ein gewaltiges Netzwerk des Wissens dar, das (unter anderem) eine enorme Enzyklopädie mit Querverweisen darstellt – domänenspezifische Datenbanken über Filme, Musik, Sportergebnisse, Flippergeräte, Memes und Cocktails, außerdem viel zu viele Behördenstatistiken (einige davon sind sogar wahr!) von viel zu vielen Regierungen, bis Ihnen schwindelig wird.
Vergraben in diesen Daten sind die Antworten auf unzählige Fragen, die niemand zuvor zu fragen wagte. In diesem Buch werden Sie lernen, wie man sie findet.

Was ist Data Science?

Ein Witz sagt, dass ein Data Scientist jemand ist, der mehr über Statistik weiß als ein Informatiker und mehr über Informatik als ein Statistiker. (Ich habe nicht gesagt, dass es ein guter Witz ist.) Tatsächlich sind einige Data Scientists – für alle praktischen Belange – Statistiker, während andere kaum von Softwareentwicklern zu unterscheiden sind. Einige sind Experten für maschinelles Lernen, während andere nicht einmal den Weg zum Kühlschrank maschinell lernen könnten. Einige haben Doktortitel und eindrucksvolle Publikationslisten, während andere nie einen akademischen Fachartikel gelesen haben (Schande über sie). Kurz, egal wie Sie Data Science definieren, Sie werden Praktiker finden, auf die diese Definition überhaupt nicht passt.
Das soll uns aber nicht davon abhalten, es zu versuchen. Wir sagen einfach, dass ein Data Scientist jemand ist, der Erkenntnisse aus ch...

Indice dei contenuti