
- English
- PDF
- Available on iOS & Android
About this book
Big data è un termine ampiamente utilizzato negli ultimi anni per descrivere l'enorme quantità di dati che viene quotidianamente generata e raccolta, con l'obiettivo di facilitare i processi decisionali che ormai sono alla base di ogni scelta aziendale, dalle attività di gestione, fino alle scelte strategiche che influenzano la direzione e il successo dell'azienda. Questo libro fornisce un'introduzione al mondo dei big data. Con un equilibrio tra teoria e pratica, esplora i vari aspetti della gestione dei dati, dalla raccolta all'analisi, senza trascurare temi critici come la sicurezza e la privacy. Il testo è arricchito da esempi pratici e case studies che illustrano l'applicazione dei big data in diversi contesti industriali, offrendo così una visione completa sia ai neofiti sia agli esperti del settore. Particolare attenzione è dedicata anche alle tecnologie e agli strumenti all'avanguardia utilizzati nell'elaborazione dei big data, come Hadoop, Spark e NoSQL. Quest'opera si rivela così una guida imprescindibile per chi opera nel settore IT, nell'analisi dei dati e nella gestione strategica aziendale, offrendo strumenti pratici e conoscenze fondamentali per capitalizzare il potenziale dei big data in un'era digitale in continua evoluzione.
Frequently asked questions
- Essential is ideal for learners and professionals who enjoy exploring a wide range of subjects. Access the Essential Library with 800,000+ trusted titles and best-sellers across business, personal growth, and the humanities. Includes unlimited reading time and Standard Read Aloud voice.
- Complete: Perfect for advanced learners and researchers needing full, unrestricted access. Unlock 1.4M+ books across hundreds of subjects, including academic and specialized titles. The Complete Plan also includes advanced features like Premium Read Aloud and Research Assistant.
Please note we cannot support devices running on iOS 13 and Android 7 or earlier. Learn more about using the app.
Information
Table of contents
- Cover
- Title
- Sommario
- Prefazione
- Note sull’autore
- Introduzione
- Che ruolo giocano i big data in tali processi?
- In ambito aziendale a chi è consigliata una tecnologia così sofisticata?
- A chi è consigliato questo testo?
- Quali conoscenze minime sono richieste?
- Gli esempi e i codici sorgenti
- Capitolo 1 - Concetti chiave
- Elementi basilari dei big data
- Origini dei big data
- Il paradigma delle "3v"
- Il ciclo di vita del dato
- La nobile professione del data scientist
- I vantaggi del data analysis per il sistema di qualità
- Sicurezza e privacy dei big data
- La questione etica
- Capitolo 2 - Origine e destinazione dei dati
- L’analisi in tempo reale
- Dominio dei dati (data domain)
- L'analisi dei big data (big data analytics)
- Il calcolo distribuito - distributed computing
- Elementi di machine learning
- Gli algoritmi di apprendimento e le reti neurali
- ChatGBT di OpenAi (fonte openai.com)
- Il problema dell’overfitting
- Tipi di dati
- I dati strutturati
- I dati semi-strutturati
- I dati non strutturati
- L’origine dei dati
- Database relazionali
- Database federato
- Database NoSQL
- Data Warehouse e Data Mart
- Data Lake
- Altre origini
- I cluster
- Struttura di un ecosistema
- Il ruolo dei connettori e il mapping dei dati
- Tipologia degli ecosistemi
- Capitolo 3 - Ecosistemi e infrastrutture on-premises
- Apache Hadoop
- Apache Hadoop e la batch-oriented data processing
- Tipico flusso di lavoro e spostamento dei dati in un piccolo cluster Hadoop
- Architettura di Hadoop
- HDFS
- Il modello MapReduce
- Il modello di programmazione funzionale utilizzato da MapReduce
- I nodi
- Modalità operative di Hadoop
- Installazione di Hadoop on-premise
- L’esempio WordCount con MapReduce
- Acquisire i dati da database relazionali
- Hadoop in Modalità Distribuita (Fully Distributed)
- Apache Ambari per la gestione di Hadoop
- Spark
- L’architettura di Spark
- Modalità di distribuzione e gestione delle risorse di Spark su un cluster
- Le interfacce di Spark
- Spark e Python
- Spark e il linguaggio R
- Spark e Java
- Spark e Scala
- Spark e il real-time data processing
- Installazione di Spark on-premise
- Esempi di utilizzo di RDD con l’interprete Python 3.7
- Il modello Map e Reduce in Spark
- Chiave e valore in un RDD
- I DataFrame
- Esempi di utilizzo dei DataFrame con SQL
- Esempi di programmazione di Spark in Java
- La libreria Spark MLlib per il machine learning
- Utilizzare Apache Hive con Spark
- Le principali differenze tra Hadoop e Spark
- La scelta migliore tra i due sistemi
- Capitolo 4 - Soluzioni cloud per i Big Data
- Oracle big data service
- Informazioni essenziali su Oracle Distribution, incluso apache Hadoop (ODH)
- I connettori Big Data di Oracle
- I nodi in ODH
- Le famiglie di istanza di Oracle Big Data Service
- Criteri di quota di Oracle Big Data Service
- Differenze tra CDH e ODH
- Creare un cluster con Oracle Distribution Including Apache Hadoop (ODH)
- IBM BigInsights
- Amazon AWS EMR
- EMR Studio
- AWS CLI
- Creare un cluster con AWS EMR
- Databricks
- I costi del servizio
- Microsoft Azure Databricks
- Esempio di creazione di un’area di lavoro di Azure Databricks
- Esempio di utilizzo di Azure Databricks
- Azure Cluster HDInsight
- Creare un cluster HDInsight per Hadoop
- Integrare Apache Hadoop con Hive Warehouse Connector in Azure HDInsight
- Integrare Apache Spark e Apache Hive con Hive Warehouse Connector in Azure HDInsight
- Capitolo 5 - Strumenti per l’analisi e la visualizzazione dei dati
- Zeppelin e Jupyter
- La scelta migliore tra le due piattaforme
- Installazione di Jupyter
- Verifica dell’installazione
- Utilizzo di Jupyter
- Creazione di un nuovo progetto
- Esecuzione di un progetto notebook esistente
- Configurare jupyter per un altro utente
- Microsoft Power BI
- Tableau
- Capitolo 6 - Laboratorio
- Laboratorio 1: analisi di un portafoglio o di un fondo di investimento
- Struttura del portafoglio e asset allocation
- Il dataset
- Il Ribilanciamento periodico
- Il prezzo medio di carico (PMC)
- L’equity line
- Il Drowdown
- L’indice Beta
- Il tasso di rendimento semplice
- L’indice alfa di Jensen
- Descrizione del codice
- Conclusioni
- Laboratorio 2: analisi delle vendite e della performance dei venditori
- Descrizione del codice
- Laboratorio 3: analisi delle attività dei venditori con MapReduce
- Laboratorio 4: eseguire un esempio con MapReduce in Azure HDInsight
- Eseguire l'esempio Wordcount
- Capitolo 7 - FAQ
- Appendice
- Appendice A: installazione del pacchetto Java open JDK
- Appendice B: generare e utilizzare un certificato RSA per SSH
- Appendice C: realizzare un tunnel port forward con SSH
- Appendice D: installazione di Python 3.7 su SUSE Linux
- Appendice E: trasformazioni RDD
- Appendice F: azioni RDD
- Appendice G: elenco dei comandi di Hadoop
- Appendice H: elenco dei parametri di HDFS
- INDICE ANALITICO
- Bibliografia