R for Data Science
eBook - ePub

R for Data Science

Dan Toomey

Compartir libro
  1. 364 páginas
  2. English
  3. ePUB (apto para móviles)
  4. Disponible en iOS y Android
eBook - ePub

R for Data Science

Dan Toomey

Detalles del libro
Vista previa del libro
Índice
Citas

Información del libro

R is a powerful, open source, functional programming language. It can be used for a wide range of programming tasks and is best suited to produce data and visual analytics through customizable scripts and commands.

The purpose of the book is to explore the core topics that data scientists are interested in. This book draws from a wide variety of data sources and evaluates this data using existing publicly available R functions and packages. In many cases, the resultant data can be displayed in a graphical form that is more intuitively understood. You will also learn about the often needed and frequently used analysis techniques in the industry.

By the end of the book, you will know how to go about adopting a range of data science techniques with R.

Preguntas frecuentes

¿Cómo cancelo mi suscripción?
Simplemente, dirígete a la sección ajustes de la cuenta y haz clic en «Cancelar suscripción». Así de sencillo. Después de cancelar tu suscripción, esta permanecerá activa el tiempo restante que hayas pagado. Obtén más información aquí.
¿Cómo descargo los libros?
Por el momento, todos nuestros libros ePub adaptables a dispositivos móviles se pueden descargar a través de la aplicación. La mayor parte de nuestros PDF también se puede descargar y ya estamos trabajando para que el resto también sea descargable. Obtén más información aquí.
¿En qué se diferencian los planes de precios?
Ambos planes te permiten acceder por completo a la biblioteca y a todas las funciones de Perlego. Las únicas diferencias son el precio y el período de suscripción: con el plan anual ahorrarás en torno a un 30 % en comparación con 12 meses de un plan mensual.
¿Qué es Perlego?
Somos un servicio de suscripción de libros de texto en línea que te permite acceder a toda una biblioteca en línea por menos de lo que cuesta un libro al mes. Con más de un millón de libros sobre más de 1000 categorías, ¡tenemos todo lo que necesitas! Obtén más información aquí.
¿Perlego ofrece la función de texto a voz?
Busca el símbolo de lectura en voz alta en tu próximo libro para ver si puedes escucharlo. La herramienta de lectura en voz alta lee el texto en voz alta por ti, resaltando el texto a medida que se lee. Puedes pausarla, acelerarla y ralentizarla. Obtén más información aquí.
¿Es R for Data Science un PDF/ePUB en línea?
Sí, puedes acceder a R for Data Science de Dan Toomey en formato PDF o ePUB, así como a otros libros populares de Computer Science y Open Source Programming. Tenemos más de un millón de libros disponibles en nuestro catálogo para que explores.

Información

Año
2014
ISBN
9781784390860
Edición
1

R for Data Science


Table of Contents

R for Data Science
Credits
About the Author
About the Reviewers
www.PacktPub.com
Support files, eBooks, discount offers, and more
Why subscribe?
Free access for Packt account holders
Preface
What this book covers
What you need for this book
Who this book is for
Conventions
Reader feedback
Customer support
Downloading the example code
Downloading the color images of this book
Errata
Piracy
Questions
1. Data Mining Patterns
Cluster analysis
K-means clustering
Usage
Example
K-medoids clustering
Usage
Example
Hierarchical clustering
Usage
Example
Expectation-maximization
Usage
List of model names
Example
Density estimation
Usage
Example
Anomaly detection
Show outliers
Example
Example
Another anomaly detection example
Calculating anomalies
Usage
Example 1
Example 2
Association rules
Mine for associations
Usage
Example
Questions
Summary
2. Data Mining Sequences
Patterns
Eclat
Usage
Using eclat to find similarities in adult behavior
Finding frequent items in a dataset
An example focusing on highest frequency
arulesNBMiner
Usage
Mining the Agrawal data for frequent sets
Apriori
Usage
Evaluating associations in a shopping basket
Determining sequences using TraMineR
Usage
Determining sequences in training and careers
Similarities in the sequence
Sequence metrics
Usage
Example
Questions
Summary
3. Text Mining
Packages
Text processing
Example
Creating a corpus
Converting text to lowercase
Removing punctuation
Removing numbers
Removing words
Removing whitespaces
Word stems
Document term matrix
Using VectorSource
Text clusters
Word graphics
Analyzing the XML text
Questions
Summary
4. Data Analysis – Regression Analysis
Packages
Simple regression
Multiple regression
Multivariate regression analysis
Robust regression
Questions
Summary
5. Data Analysis – Correlation
Packages
Correlation
Example
Visualizing correlations
Covariance
Pearson correlation
Polychoric correlation
Tetrachoric correlation
A heterogeneous correlation matrix
Partial correlation
Questions
Summary
6. Data Analysis – Clustering
Packages
K-means clustering
Example
Optimal number of clusters
Medoids clusters
The cascadeKM function
Selecting clusters based on Bayesian information
Affinity propagation clustering
Gap statistic to estimate the number of clusters
Hierarchical clustering
Questions
Summary
7. Data Visualization – R Graphics
Packages
Interactive graphics
The latticist package
Bivariate binning display
Mapping
Plotting points on a map
Plotting points on a world map
Google Maps
The ggplot2 package
Questions
Summary
8. Data Visualization – Plotting
Packages
Scatter plots
Regression line
A lowess line
scatterplot
Scatterplot matrices
splom – display matrix data
cpairs – plot matrix data
Density scatter plots
Bar charts and plots
Bar plot
Usage
Bar chart
ggplot2
Word cloud
Questions
Summary
9. Data Visualization – 3D
Packages
Generating 3D graphics
Lattice Cloud – 3D scatterplot
scatterplot3d
scatter3d
cloud3d
RgoogleMaps
vrmlgenbar3D
Big Data
pbdR
Common global values
Distribute data across nodes
Distribute a matrix across nodes
bigmemory
pdbMPI
snow
More Big Data
Research areas
Rcpp
parallel
microbenchmark
pqR
SAP integration
roxygen2
bioconductor
swirl
pipes
Questions
Summary
10. Machine Learning in Action
Packages
Dataset
Data partitioning
Model
Linear model
Prediction
Logistic regression
Residuals
Least squares regression
Relative importance
Stepwise regression
The k-nearest neighbor classification
Naïve Bayes
The train Method
predict
Support vector machines
K-means clustering
Decision trees
AdaBoost
Neural network
Random forests
Questions
Summary
11. Predicting Events with Machine Learning
Automatic forecasting packages
Time series
The SMA function
The decompose function
Exponential smoothing
Forecast
Correlogram
Box test
Holt exponential smoothing
Automated forecasting
ARIMA
Automated ARIMA forecas...

Índice