R for Data Science
eBook - ePub

R for Data Science

Dan Toomey

Partager le livre
  1. 364 pages
  2. English
  3. ePUB (adapté aux mobiles)
  4. Disponible sur iOS et Android
eBook - ePub

R for Data Science

Dan Toomey

DĂ©tails du livre
Aperçu du livre
Table des matiĂšres
Citations

À propos de ce livre

R is a powerful, open source, functional programming language. It can be used for a wide range of programming tasks and is best suited to produce data and visual analytics through customizable scripts and commands.

The purpose of the book is to explore the core topics that data scientists are interested in. This book draws from a wide variety of data sources and evaluates this data using existing publicly available R functions and packages. In many cases, the resultant data can be displayed in a graphical form that is more intuitively understood. You will also learn about the often needed and frequently used analysis techniques in the industry.

By the end of the book, you will know how to go about adopting a range of data science techniques with R.

Foire aux questions

Comment puis-je résilier mon abonnement ?
Il vous suffit de vous rendre dans la section compte dans paramĂštres et de cliquer sur « RĂ©silier l’abonnement ». C’est aussi simple que cela ! Une fois que vous aurez rĂ©siliĂ© votre abonnement, il restera actif pour le reste de la pĂ©riode pour laquelle vous avez payĂ©. DĂ©couvrez-en plus ici.
Puis-je / comment puis-je télécharger des livres ?
Pour le moment, tous nos livres en format ePub adaptĂ©s aux mobiles peuvent ĂȘtre tĂ©lĂ©chargĂ©s via l’application. La plupart de nos PDF sont Ă©galement disponibles en tĂ©lĂ©chargement et les autres seront tĂ©lĂ©chargeables trĂšs prochainement. DĂ©couvrez-en plus ici.
Quelle est la différence entre les formules tarifaires ?
Les deux abonnements vous donnent un accĂšs complet Ă  la bibliothĂšque et Ă  toutes les fonctionnalitĂ©s de Perlego. Les seules diffĂ©rences sont les tarifs ainsi que la pĂ©riode d’abonnement : avec l’abonnement annuel, vous Ă©conomiserez environ 30 % par rapport Ă  12 mois d’abonnement mensuel.
Qu’est-ce que Perlego ?
Nous sommes un service d’abonnement Ă  des ouvrages universitaires en ligne, oĂč vous pouvez accĂ©der Ă  toute une bibliothĂšque pour un prix infĂ©rieur Ă  celui d’un seul livre par mois. Avec plus d’un million de livres sur plus de 1 000 sujets, nous avons ce qu’il vous faut ! DĂ©couvrez-en plus ici.
Prenez-vous en charge la synthÚse vocale ?
Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l’écouter. L’outil Écouter lit le texte Ă  haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l’accĂ©lĂ©rer ou le ralentir. DĂ©couvrez-en plus ici.
Est-ce que R for Data Science est un PDF/ePUB en ligne ?
Oui, vous pouvez accĂ©der Ă  R for Data Science par Dan Toomey en format PDF et/ou ePUB ainsi qu’à d’autres livres populaires dans Computer Science et Open Source Programming. Nous disposons de plus d’un million d’ouvrages Ă  dĂ©couvrir dans notre catalogue.

Informations

Année
2014
ISBN
9781784390860

R for Data Science


Table of Contents

R for Data Science
Credits
About the Author
About the Reviewers
www.PacktPub.com
Support files, eBooks, discount offers, and more
Why subscribe?
Free access for Packt account holders
Preface
What this book covers
What you need for this book
Who this book is for
Conventions
Reader feedback
Customer support
Downloading the example code
Downloading the color images of this book
Errata
Piracy
Questions
1. Data Mining Patterns
Cluster analysis
K-means clustering
Usage
Example
K-medoids clustering
Usage
Example
Hierarchical clustering
Usage
Example
Expectation-maximization
Usage
List of model names
Example
Density estimation
Usage
Example
Anomaly detection
Show outliers
Example
Example
Another anomaly detection example
Calculating anomalies
Usage
Example 1
Example 2
Association rules
Mine for associations
Usage
Example
Questions
Summary
2. Data Mining Sequences
Patterns
Eclat
Usage
Using eclat to find similarities in adult behavior
Finding frequent items in a dataset
An example focusing on highest frequency
arulesNBMiner
Usage
Mining the Agrawal data for frequent sets
Apriori
Usage
Evaluating associations in a shopping basket
Determining sequences using TraMineR
Usage
Determining sequences in training and careers
Similarities in the sequence
Sequence metrics
Usage
Example
Questions
Summary
3. Text Mining
Packages
Text processing
Example
Creating a corpus
Converting text to lowercase
Removing punctuation
Removing numbers
Removing words
Removing whitespaces
Word stems
Document term matrix
Using VectorSource
Text clusters
Word graphics
Analyzing the XML text
Questions
Summary
4. Data Analysis – Regression Analysis
Packages
Simple regression
Multiple regression
Multivariate regression analysis
Robust regression
Questions
Summary
5. Data Analysis – Correlation
Packages
Correlation
Example
Visualizing correlations
Covariance
Pearson correlation
Polychoric correlation
Tetrachoric correlation
A heterogeneous correlation matrix
Partial correlation
Questions
Summary
6. Data Analysis – Clustering
Packages
K-means clustering
Example
Optimal number of clusters
Medoids clusters
The cascadeKM function
Selecting clusters based on Bayesian information
Affinity propagation clustering
Gap statistic to estimate the number of clusters
Hierarchical clustering
Questions
Summary
7. Data Visualization – R Graphics
Packages
Interactive graphics
The latticist package
Bivariate binning display
Mapping
Plotting points on a map
Plotting points on a world map
Google Maps
The ggplot2 package
Questions
Summary
8. Data Visualization – Plotting
Packages
Scatter plots
Regression line
A lowess line
scatterplot
Scatterplot matrices
splom – display matrix data
cpairs – plot matrix data
Density scatter plots
Bar charts and plots
Bar plot
Usage
Bar chart
ggplot2
Word cloud
Questions
Summary
9. Data Visualization – 3D
Packages
Generating 3D graphics
Lattice Cloud – 3D scatterplot
scatterplot3d
scatter3d
cloud3d
RgoogleMaps
vrmlgenbar3D
Big Data
pbdR
Common global values
Distribute data across nodes
Distribute a matrix across nodes
bigmemory
pdbMPI
snow
More Big Data
Research areas
Rcpp
parallel
microbenchmark
pqR
SAP integration
roxygen2
bioconductor
swirl
pipes
Questions
Summary
10. Machine Learning in Action
Packages
Dataset
Data partitioning
Model
Linear model
Prediction
Logistic regression
Residuals
Least squares regression
Relative importance
Stepwise regression
The k-nearest neighbor classification
NaĂŻve Bayes
The train Method
predict
Support vector machines
K-means clustering
Decision trees
AdaBoost
Neural network
Random forests
Questions
Summary
11. Predicting Events with Machine Learning
Automatic forecasting packages
Time series
The SMA function
The decompose function
Exponential smoothing
Forecast
Correlogram
Box test
Holt exponential smoothing
Automated forecasting
ARIMA
Automated ARIMA forecas...

Table des matiĂšres