eBook - ePub

R for Data Science

Name: R for Data Science
Author: Dan Toomey

Dan Toomey

Partager le livre

364 pages
English
ePUB (adapté aux mobiles)
Disponible sur iOS et Android

eBook - ePub

R for Data Science

Dan Toomey

Détails du livre

Aperçu du livre

Table des matières

Citations

À propos de ce livre

R is a powerful, open source, functional programming language. It can be used for a wide range of programming tasks and is best suited to produce data and visual analytics through customizable scripts and commands.

The purpose of the book is to explore the core topics that data scientists are interested in. This book draws from a wide variety of data sources and evaluates this data using existing publicly available R functions and packages. In many cases, the resultant data can be displayed in a graphical form that is more intuitively understood. You will also learn about the often needed and frequently used analysis techniques in the industry.

By the end of the book, you will know how to go about adopting a range of data science techniques with R.

Foire aux questions

Comment puis-je résilier mon abonnement ?

Il vous suffit de vous rendre dans la section compte dans paramètres et de cliquer sur « Résilier l’abonnement ». C’est aussi simple que cela ! Une fois que vous aurez résilié votre abonnement, il restera actif pour le reste de la période pour laquelle vous avez payé. Découvrez-en plus ici.

Puis-je / comment puis-je télécharger des livres ?

Pour le moment, tous nos livres en format ePub adaptés aux mobiles peuvent être téléchargés via l’application. La plupart de nos PDF sont également disponibles en téléchargement et les autres seront téléchargeables très prochainement. Découvrez-en plus ici.

Quelle est la différence entre les formules tarifaires ?

Les deux abonnements vous donnent un accès complet à la bibliothèque et à toutes les fonctionnalités de Perlego. Les seules différences sont les tarifs ainsi que la période d’abonnement : avec l’abonnement annuel, vous économiserez environ 30 % par rapport à 12 mois d’abonnement mensuel.

Qu’est-ce que Perlego ?

Nous sommes un service d’abonnement à des ouvrages universitaires en ligne, où vous pouvez accéder à toute une bibliothèque pour un prix inférieur à celui d’un seul livre par mois. Avec plus d’un million de livres sur plus de 1 000 sujets, nous avons ce qu’il vous faut ! Découvrez-en plus ici.

Prenez-vous en charge la synthèse vocale ?

Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l’écouter. L’outil Écouter lit le texte à haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l’accélérer ou le ralentir. Découvrez-en plus ici.

Est-ce que R for Data Science est un PDF/ePUB en ligne ?

Oui, vous pouvez accéder à R for Data Science par Dan Toomey en format PDF et/ou ePUB ainsi qu’à d’autres livres populaires dans Computer Science et Open Source Programming. Nous disposons de plus d’un million d’ouvrages à découvrir dans notre catalogue.

Informations

Éditeur

Packt Publishing

Année

2014

ISBN

9781784390860

Édition

Sujet

Computer Science

Sous-sujet

Open Source Programming

R for Data Science

Credits

About the Author

About the Reviewers

www.PacktPub.com

Support files, eBooks, discount offers, and more

Why subscribe?

Free access for Packt account holders

Preface

What this book covers

What you need for this book

Who this book is for

Conventions

Reader feedback

Customer support

Downloading the example code

Downloading the color images of this book

Errata

Piracy

Questions

1. Data Mining Patterns

Cluster analysis

K-means clustering

Usage

Example

K-medoids clustering

Usage

Example

Hierarchical clustering

Usage

Example

Expectation-maximization

Usage

List of model names

Example

Density estimation

Usage

Example

Anomaly detection

Show outliers

Example

Another anomaly detection example

Calculating anomalies

Usage

Example 1

Example 2

Association rules

Mine for associations

Usage

Example

Questions

Summary

2. Data Mining Sequences

Patterns

Eclat

Usage

Using eclat to find similarities in adult behavior

Finding frequent items in a dataset

An example focusing on highest frequency

arulesNBMiner

Usage

Mining the Agrawal data for frequent sets

Apriori

Usage

Evaluating associations in a shopping basket

Determining sequences using TraMineR

Usage

Determining sequences in training and careers

Similarities in the sequence

Sequence metrics

Usage

Example

Questions

Summary

3. Text Mining

Packages

Text processing

Example

Creating a corpus

Converting text to lowercase

Removing punctuation

Removing numbers

Removing words

Removing whitespaces

Word stems

Document term matrix

Using VectorSource

Text clusters

Word graphics

Analyzing the XML text

Questions

Summary

4. Data Analysis – Regression Analysis

Packages

Simple regression

Multiple regression

Multivariate regression analysis

Robust regression

Questions

Summary

5. Data Analysis – Correlation

Packages

Correlation

Example

Visualizing correlations

Covariance

Pearson correlation

Polychoric correlation

Tetrachoric correlation

A heterogeneous correlation matrix

Partial correlation

Questions

Summary

6. Data Analysis – Clustering

Packages

K-means clustering

Example

Optimal number of clusters

Medoids clusters

The cascadeKM function

Selecting clusters based on Bayesian information

Affinity propagation clustering

Gap statistic to estimate the number of clusters

Hierarchical clustering

Questions

Summary

7. Data Visualization – R Graphics

Packages

Interactive graphics

The latticist package

Bivariate binning display

Mapping

Plotting points on a map

Plotting points on a world map

Google Maps

The ggplot2 package

Questions

Summary

8. Data Visualization – Plotting

Packages

Scatter plots

Regression line

A lowess line

scatterplot

Scatterplot matrices

splom – display matrix data

cpairs – plot matrix data

Density scatter plots

Bar charts and plots

Bar plot

Usage

Bar chart

ggplot2

Word cloud

Questions

Summary

9. Data Visualization – 3D

Packages

Generating 3D graphics

Lattice Cloud – 3D scatterplot

scatterplot3d

scatter3d

cloud3d

RgoogleMaps

vrmlgenbar3D

Big Data

pbdR

Common global values

Distribute data across nodes

Distribute a matrix across nodes

bigmemory

pdbMPI

snow

More Big Data

Research areas

Rcpp

parallel

microbenchmark

pqR

SAP integration

roxygen2

bioconductor

swirl

pipes

Questions

Summary

10. Machine Learning in Action

Packages

Dataset

Data partitioning

Model

Linear model

Prediction

Logistic regression

Residuals

Least squares regression

Relative importance

Stepwise regression

The k-nearest neighbor classification

Naïve Bayes

The train Method

predict

Support vector machines

K-means clustering

Decision trees

AdaBoost

Neural network

Random forests

Questions

Summary

11. Predicting Events with Machine Learning

Automatic forecasting packages

Time series

The SMA function

The decompose function

Exponential smoothing

Forecast

Correlogram

Box test

Holt exponential smoothing

Automated forecasting

ARIMA

Automated ARIMA forecas...

À propos de ce livre

Foire aux questions

Informations

R for Data Science

Table of Contents

Table des matières