Big Data
eBook - PDF

Big Data

Come scalare una montagna di dati

  1. English
  2. PDF
  3. Available on iOS & Android
eBook - PDF

Big Data

Come scalare una montagna di dati

About this book


Big data è un termine ampiamente utilizzato negli ultimi anni per descrivere l'enorme quantità di dati che viene quotidianamente generata e raccolta, con l'obiettivo di facilitare i processi decisionali che ormai sono alla base di ogni scelta aziendale, dalle attività di gestione, fino alle scelte strategiche che influenzano la direzione e il successo dell'azienda. Questo libro fornisce un'introduzione al mondo dei big data. Con un equilibrio tra teoria e pratica, esplora i vari aspetti della gestione dei dati, dalla raccolta all'analisi, senza trascurare temi critici come la sicurezza e la privacy. Il testo è arricchito da esempi pratici e case studies che illustrano l'applicazione dei big data in diversi contesti industriali, offrendo così una visione completa sia ai neofiti sia agli esperti del settore. Particolare attenzione è dedicata anche alle tecnologie e agli strumenti all'avanguardia utilizzati nell'elaborazione dei big data, come Hadoop, Spark e NoSQL. Quest'opera si rivela così una guida imprescindibile per chi opera nel settore IT, nell'analisi dei dati e nella gestione strategica aziendale, offrendo strumenti pratici e conoscenze fondamentali per capitalizzare il potenziale dei big data in un'era digitale in continua evoluzione.

Frequently asked questions

Yes, you can cancel anytime from the Subscription tab in your account settings on the Perlego website. Your subscription will stay active until the end of your current billing period. Learn how to cancel your subscription.
No, books cannot be downloaded as external files, such as PDFs, for use outside of Perlego. However, you can download books within the Perlego app for offline reading on mobile or tablet. Learn more here.
Perlego offers two plans: Essential and Complete
  • Essential is ideal for learners and professionals who enjoy exploring a wide range of subjects. Access the Essential Library with 800,000+ trusted titles and best-sellers across business, personal growth, and the humanities. Includes unlimited reading time and Standard Read Aloud voice.
  • Complete: Perfect for advanced learners and researchers needing full, unrestricted access. Unlock 1.4M+ books across hundreds of subjects, including academic and specialized titles. The Complete Plan also includes advanced features like Premium Read Aloud and Research Assistant.
Both plans are available with monthly, semester, or annual billing cycles.
We are an online textbook subscription service, where you can get access to an entire online library for less than the price of a single book per month. With over 1 million books across 1000+ topics, we’ve got you covered! Learn more here.
Look out for the read-aloud symbol on your next book to see if you can listen to it. The read-aloud tool reads text aloud for you, highlighting the text as it is being read. You can pause it, speed it up and slow it down. Learn more here.
Yes! You can use the Perlego app on both iOS or Android devices to read anytime, anywhere — even offline. Perfect for commutes or when you’re on the go.
Please note we cannot support devices running on iOS 13 and Android 7 or earlier. Learn more about using the app.
Yes, you can access Big Data by Massimo Bergamaschi in PDF and/or ePUB format, as well as other popular books in Ciencia de la computación & Inteligencia artificial (IA) y semántica. We have over one million books available in our catalogue for you to explore.

Table of contents

  1. Cover
  2. Title
  3. Sommario
  4. Prefazione
  5. Note sull’autore
  6. Introduzione
  7. Che ruolo giocano i big data in tali processi?
  8. In ambito aziendale a chi è consigliata una tecnologia così sofisticata?
  9. A chi è consigliato questo testo?
  10. Quali conoscenze minime sono richieste?
  11. Gli esempi e i codici sorgenti
  12. Capitolo 1 - Concetti chiave
  13. Elementi basilari dei big data
  14. Origini dei big data
  15. Il paradigma delle "3v"
  16. Il ciclo di vita del dato
  17. La nobile professione del data scientist
  18. I vantaggi del data analysis per il sistema di qualità
  19. Sicurezza e privacy dei big data
  20. La questione etica
  21. Capitolo 2 - Origine e destinazione dei dati
  22. L’analisi in tempo reale
  23. Dominio dei dati (data domain)
  24. L'analisi dei big data (big data analytics)
  25. Il calcolo distribuito - distributed computing
  26. Elementi di machine learning
  27. Gli algoritmi di apprendimento e le reti neurali
  28. ChatGBT di OpenAi (fonte openai.com)
  29. Il problema dell’overfitting
  30. Tipi di dati
  31. I dati strutturati
  32. I dati semi-strutturati
  33. I dati non strutturati
  34. L’origine dei dati
  35. Database relazionali
  36. Database federato
  37. Database NoSQL
  38. Data Warehouse e Data Mart
  39. Data Lake
  40. Altre origini
  41. I cluster
  42. Struttura di un ecosistema
  43. Il ruolo dei connettori e il mapping dei dati
  44. Tipologia degli ecosistemi
  45. Capitolo 3 - Ecosistemi e infrastrutture on-premises
  46. Apache Hadoop
  47. Apache Hadoop e la batch-oriented data processing
  48. Tipico flusso di lavoro e spostamento dei dati in un piccolo cluster Hadoop
  49. Architettura di Hadoop
  50. HDFS
  51. Il modello MapReduce
  52. Il modello di programmazione funzionale utilizzato da MapReduce
  53. I nodi
  54. Modalità operative di Hadoop
  55. Installazione di Hadoop on-premise
  56. L’esempio WordCount con MapReduce
  57. Acquisire i dati da database relazionali
  58. Hadoop in Modalità Distribuita (Fully Distributed)
  59. Apache Ambari per la gestione di Hadoop
  60. Spark
  61. L’architettura di Spark
  62. Modalità di distribuzione e gestione delle risorse di Spark su un cluster
  63. Le interfacce di Spark
  64. Spark e Python
  65. Spark e il linguaggio R
  66. Spark e Java
  67. Spark e Scala
  68. Spark e il real-time data processing
  69. Installazione di Spark on-premise
  70. Esempi di utilizzo di RDD con l’interprete Python 3.7
  71. Il modello Map e Reduce in Spark
  72. Chiave e valore in un RDD
  73. I DataFrame
  74. Esempi di utilizzo dei DataFrame con SQL
  75. Esempi di programmazione di Spark in Java
  76. La libreria Spark MLlib per il machine learning
  77. Utilizzare Apache Hive con Spark
  78. Le principali differenze tra Hadoop e Spark
  79. La scelta migliore tra i due sistemi
  80. Capitolo 4 - Soluzioni cloud per i Big Data
  81. Oracle big data service
  82. Informazioni essenziali su Oracle Distribution, incluso apache Hadoop (ODH)
  83. I connettori Big Data di Oracle
  84. I nodi in ODH
  85. Le famiglie di istanza di Oracle Big Data Service
  86. Criteri di quota di Oracle Big Data Service
  87. Differenze tra CDH e ODH
  88. Creare un cluster con Oracle Distribution Including Apache Hadoop (ODH)
  89. IBM BigInsights
  90. Amazon AWS EMR
  91. EMR Studio
  92. AWS CLI
  93. Creare un cluster con AWS EMR
  94. Databricks
  95. I costi del servizio
  96. Microsoft Azure Databricks
  97. Esempio di creazione di un’area di lavoro di Azure Databricks
  98. Esempio di utilizzo di Azure Databricks
  99. Azure Cluster HDInsight
  100. Creare un cluster HDInsight per Hadoop
  101. Integrare Apache Hadoop con Hive Warehouse Connector in Azure HDInsight
  102. Integrare Apache Spark e Apache Hive con Hive Warehouse Connector in Azure HDInsight
  103. Capitolo 5 - Strumenti per l’analisi e la visualizzazione dei dati
  104. Zeppelin e Jupyter
  105. La scelta migliore tra le due piattaforme
  106. Installazione di Jupyter
  107. Verifica dell’installazione
  108. Utilizzo di Jupyter
  109. Creazione di un nuovo progetto
  110. Esecuzione di un progetto notebook esistente
  111. Configurare jupyter per un altro utente
  112. Microsoft Power BI
  113. Tableau
  114. Capitolo 6 - Laboratorio
  115. Laboratorio 1: analisi di un portafoglio o di un fondo di investimento
  116. Struttura del portafoglio e asset allocation
  117. Il dataset
  118. Il Ribilanciamento periodico
  119. Il prezzo medio di carico (PMC)
  120. L’equity line
  121. Il Drowdown
  122. L’indice Beta
  123. Il tasso di rendimento semplice
  124. L’indice alfa di Jensen
  125. Descrizione del codice
  126. Conclusioni
  127. Laboratorio 2: analisi delle vendite e della performance dei venditori
  128. Descrizione del codice
  129. Laboratorio 3: analisi delle attività dei venditori con MapReduce
  130. Laboratorio 4: eseguire un esempio con MapReduce in Azure HDInsight
  131. Eseguire l'esempio Wordcount
  132. Capitolo 7 - FAQ
  133. Appendice
  134. Appendice A: installazione del pacchetto Java open JDK
  135. Appendice B: generare e utilizzare un certificato RSA per SSH
  136. Appendice C: realizzare un tunnel port forward con SSH
  137. Appendice D: installazione di Python 3.7 su SUSE Linux
  138. Appendice E: trasformazioni RDD
  139. Appendice F: azioni RDD
  140. Appendice G: elenco dei comandi di Hadoop
  141. Appendice H: elenco dei parametri di HDFS
  142. INDICE ANALITICO
  143. Bibliografia