Learning Apache Mahout
eBook - ePub

Learning Apache Mahout

Chandramani Tiwary

Partager le livre
  1. 250 pages
  2. English
  3. ePUB (adapté aux mobiles)
  4. Disponible sur iOS et Android
eBook - ePub

Learning Apache Mahout

Chandramani Tiwary

DĂ©tails du livre
Aperçu du livre
Table des matiĂšres
Citations

Foire aux questions

Comment puis-je résilier mon abonnement ?
Il vous suffit de vous rendre dans la section compte dans paramĂštres et de cliquer sur « RĂ©silier l’abonnement ». C’est aussi simple que cela ! Une fois que vous aurez rĂ©siliĂ© votre abonnement, il restera actif pour le reste de la pĂ©riode pour laquelle vous avez payĂ©. DĂ©couvrez-en plus ici.
Puis-je / comment puis-je télécharger des livres ?
Pour le moment, tous nos livres en format ePub adaptĂ©s aux mobiles peuvent ĂȘtre tĂ©lĂ©chargĂ©s via l’application. La plupart de nos PDF sont Ă©galement disponibles en tĂ©lĂ©chargement et les autres seront tĂ©lĂ©chargeables trĂšs prochainement. DĂ©couvrez-en plus ici.
Quelle est la différence entre les formules tarifaires ?
Les deux abonnements vous donnent un accĂšs complet Ă  la bibliothĂšque et Ă  toutes les fonctionnalitĂ©s de Perlego. Les seules diffĂ©rences sont les tarifs ainsi que la pĂ©riode d’abonnement : avec l’abonnement annuel, vous Ă©conomiserez environ 30 % par rapport Ă  12 mois d’abonnement mensuel.
Qu’est-ce que Perlego ?
Nous sommes un service d’abonnement Ă  des ouvrages universitaires en ligne, oĂč vous pouvez accĂ©der Ă  toute une bibliothĂšque pour un prix infĂ©rieur Ă  celui d’un seul livre par mois. Avec plus d’un million de livres sur plus de 1 000 sujets, nous avons ce qu’il vous faut ! DĂ©couvrez-en plus ici.
Prenez-vous en charge la synthÚse vocale ?
Recherchez le symbole Écouter sur votre prochain livre pour voir si vous pouvez l’écouter. L’outil Écouter lit le texte Ă  haute voix pour vous, en surlignant le passage qui est en cours de lecture. Vous pouvez le mettre sur pause, l’accĂ©lĂ©rer ou le ralentir. DĂ©couvrez-en plus ici.
Est-ce que Learning Apache Mahout est un PDF/ePUB en ligne ?
Oui, vous pouvez accĂ©der Ă  Learning Apache Mahout par Chandramani Tiwary en format PDF et/ou ePUB ainsi qu’à d’autres livres populaires dans Ciencia de la computaciĂłn et Algoritmos de programaciĂłn. Nous disposons de plus d’un million d’ouvrages Ă  dĂ©couvrir dans notre catalogue.

Informations

Learning Apache Mahout


Table of Contents

Learning Apache Mahout
Credits
About the Author
About the Reviewers
www.PacktPub.com
Support files, eBooks, discount offers, and more
Why subscribe?
Free access for Packt account holders
Preface
What this book covers
What you need for this book
Who this book is for
Conventions
Reader feedback
Customer support
Downloading the example code
Errata
Piracy
Questions
1. Introduction to Mahout
Why Mahout
Simple techniques and more data is better
Sampling is difficult
Community and license
When Mahout
Data too large for single machine
Data already on Hadoop
Algorithms implemented in Mahout
How Mahout
Setting up the development environment
Configuring Maven
Configuring Mahout
Configuring Eclipse with the Maven plugin and Mahout
Mahout command line
A clustering example
Reuter's raw data file
A classification example
Mahout API – a Java program example
The dataset
Parallel versus in-memory execution mode
Summary
2. Core Concepts in Machine Learning
Supervised learning
Determine the objective
Decide the training data
Create and clean the training set
Feature extraction
Train the models
Bagging
Boosting
Validation
Holdout-set validation
K-fold cross validation
Evaluation
Bias-variance trade-off
Function complexity and amount of training data
Dimensionality of the input space
Noise in data
Unsupervised learning
Cluster analysis
Objective
Feature representation
Feature normalization
Row normalization
Column normalization
Rescaling
Standardization
A notion of similarity and dissimilarity
Euclidean distance measure
Squared Euclidean distance measure
Manhattan distance measure
Cosine distance measure
Tanimoto distance measure
Algorithm for clustering
A stopping criteria
Frequent pattern mining
Measures for identifying interesting rules
Support
Confidence
Lift
Conviction
Things to consider
Actionable rules
What association to look for
Recommender system
Collaborative filtering
Cold start
Scalability
Sparsity
Content-based filtering
Model efficacy
Classification
Confusion matrix
ROC curve and AUC
Features of ROC graphs
Evaluating classifier using the ROC curve
Area-based accuracy measure
Euclidian distance comparison
Example
Regression
Mean absolute error
Root mean squared error
R-square
Adjusted R-square
Recommendation system
Score difference
Precision and recall
Clustering
The internal evaluation
The intra-cluster distance
The inter-cluster distance
The Davies–Bouldin index
The Dunn index
The external evaluation
The Rand index
F-measure
Summary
3. Feature Engineering
Feature engineering
Feature construction
Categorical features
Merging categories
Converting to binary variables
Converting to continuous variables
Continuous features
Binning
Binarization
Feature standardization
Rescaling
Mean standardization
Scaling to unit norm
Feature transformation derived from the problem domain
Ratios
Frequency
Aggregate transformations
Normalization
Mathematical transformations
Feature extraction
Feature selection
Filter-based feature selection
Wrapper-based feature selection
Backward selection
Forward selection
Recursive feature elimination
Embedded feature selection
Dimensionality reduction
Summary
4. Classification with Mahout
Classification
White box models
Black box models
Logistic regression
Mahout logistic regression command line
Getting the data
Model building via command line
Splitting the dataset
Train the model command line option
Interpreting the output
Testing the model
Prediction
Adaptive regression model
Code example with logistic regression
Train the model
The LogisticRegressionParameter and CsvRecordFactory classes
A code example without the parameter class
Testing the online regression model
Getting predictions from OnlineLogisticRegression
A CrossFoldLearner example
Random forest
Bagging
Random subsets of features
Out-of-bag error estimate
Random forest using the command line
Predictions from random forest
NaĂŻve Bayes classifier
Numeric features with naĂŻve Bayes
Command line
Summary
5. Frequent Pattern Mining and Topic Modeling
Frequent pattern mining
Building FP Tree
Constructing the tree
Identify...

Table des matiĂšres