"El crecimiento en el uso de la ciencia de datos en nuestras sociedades está impulsado por la aparición del big data y las redes sociales, la aceleración de la potencia informática, la reducción masiva en el costo de la memoria de la computadora y el desarrollo de métodos más potentes para el análisis y modelado de datos, como el aprendizaje profundo. Todos estos factores juntos hacen que nunca haya sido tan fácil para las organizaciones recopilar, almacenar y procesar datos. Al mismo tiempo, estas innovaciones técnicas y la aplicación más amplia de la ciencia de datos hacen que los desafíos éticos relacionados con el uso de datos y la privacidad individual nunca han sido tan apremiantes."

eBook - ePub
Ciencia de datos
La serie de conocimientos esenciales de MIT Press
- 196 páginas
- Spanish
- ePUB (apto para móviles)
- Disponible en iOS y Android
eBook - ePub
Descripción del libro
Cuenta con la confianza de 375,005 estudiantes
Acceso a más de 1 millón de títulos por un precio mensual asequible.
Estudia de forma más eficiente usando nuestras herramientas de estudio.
Información
Categoría
Biological SciencesCategoría
Desktop ApplicationsCAPÍTULO 1
¿Qué es la ciencia de datos?
La ciencia de datos abarca un conjunto de principios, definiciones de problemas, algoritmos y procesos para extraer patrones no obvios y útiles de grandes conjuntos de datos. Muchos de los elementos de la ciencia de datos se han desarrollado en campos relacionados, como el aprendizaje automático y la minería de datos. De hecho, los términos ciencia de datos, aprendizaje automático y minería de datos a menudo se usan indistintamente. Lo que comparten estas disciplinas es el enfoque de mejorar la toma de decisiones a través del análisis de datos. Sin embargo, aunque la ciencia de datos toma prestado de estos otros campos, tiene un alcance más amplio. El aprendizaje automático se centra en el diseño y la evaluación de algoritmos para extraer patrones de los datos. La minería de datos generalmente se ocupa del análisis de datos estructurados y a menudo implica un énfasis en las aplicaciones comerciales. La ciencia de datos tiene en cuenta todas estas consideraciones, pero también aborda otros desafíos, como la captura, limpieza y transformación de redes sociales y datos web no estructurados; el uso de tecnologías del big data para almacenar y procesar grandes conjuntos de datos no estructurados; y preguntas relacionadas con la ética y la regulación de datos.
Mediante la ciencia de datos podemos extraer diferentes tipos de patrones. Por ejemplo, podríamos querer extraer patrones que nos ayuden a identificar grupos de clientes que exhiben comportamientos y gustos similares. En la jerga empresarial, esta tarea se conoce como segmentación de clientes, y en la terminología de la ciencia de datos se llama agrupamiento. Alternativamente, podríamos querer extraer un patrón que identifique los productos que se compran frecuentemente juntos, un proceso llamado minería de reglas de asociación. O podríamos querer extraer patrones que identifiquen eventos extraños o anormales, como reclamos de seguro fraudulentos, un proceso conocido como anomalía o detección de valores atípicos. Finalmente, podríamos querer identificar patrones que nos ayuden a clasificar las cosas. Por ejemplo, la siguiente regla ilustra cómo se vería un patrón de clasificación extraído de un conjunto de datos de correo electrónico: Si un correo electrónico contiene la frase “Hacer dinero fácilmente”, es probable que sea correo no deseado. Identificar estos tipos de reglas de clasificación se conoce como predicción. La palabra predicción puede parecer una elección extraña porque la regla no predice lo que sucederá en el futuro: el correo electrónico ya es o no es un correo no deseado. Por lo tanto, es mejor pensar que los patrones de predicción predicen el valor faltante de un atributo en lugar de predecir el futuro. En este ejemplo, estamos prediciendo si el atributo de clasificación de correo electrónico debe tener el valor “correo no deseado” o no.
| Si un experto humano puede crear fácilmente un patrón en su propia mente, entonces no vale la pena el tiempo y el esfuerzo que requiere la ciencia de datos para “descubrirlo”. |
Aunque podemos usar la ciencia de datos para extraer diferentes tipos de patrones, siempre queremos que los patrones sean no obvios y útiles. El ejemplo de la regla de clasificación de correo electrónico del párrafo anterior es tan simple y obvia que si fuera la única regla extraída por un proceso de ciencia de datos, quedaríamos decepcionados. Por ejemplo, esta regla de clasificación de correo electrónico verifica solo un atributo: ¿contiene la frase “ganar dinero fácilmente”? Si un experto humano puede crear fácilmente un patrón en su propia mente, entonces no vale la pena el tiempo y el esfuerzo que requiere la ciencia de datos para “descubrirlo”. En general, la ciencia de datos se vuelve útil cuando tenemos una gran cantidad de ejemplos de datos y cuando los patrones son demasiado complejos para que los humanos los descubran y extraigan manualmente. Como límite inferior, podemos tomar una gran cantidad de ejemplos de datos para definir que supere lo que un experto humano puede verificar fácilmente. Con respecto a la complejidad de los patrones, podemos definirla en relación con las habilidades humanas. Los humanos somos razonablemente buenos para definir reglas que marcan un, dos, cientos, miles y, en casos extremos, millones de atributos.
Los patrones que extraemos mediante la ciencia de datos son útiles solo si nos dan una idea del problema que nos permite hacer algo para ayudar a resolverlo. La frase conocimiento procesable a veces se usa en este contexto para describir lo que queremos que nos den los patrones extraídos. El término conocimiento destaca que el patrón debería proporcionarnos información relevante sobre el problema que no sea obvia. El término procesable destaca que la información que obtenemos también debe ser algo que tengamos la capacidad de usar de alguna manera. Por ejemplo, imagina que estamos trabajando para una compañía de teléfonos celulares que está tratando de resolver un problema de abandono de clientes, es decir, demasiados clientes se están cambiando a otras compañías. Una forma en que se podría utilizar la ciencia de datos para abordar este problema es extraer patrones de los datos sobre clientes anteriores que nos permitan identificar a los clientes actuales que tienen riesgos de abandono y luego contactar a estos clientes e intentar convencerlos de que se queden con nosotros. Un patrón que nos permite identificar a los posibles clientes que abandonarían es útil para nosotros solo si (a) los patrones identifican a los clientes con suficiente anticipación para que podamos contactarlos antes de que abandonen y (b) nuestra empresa pueda formar un equipo para contactarlos. Ambas cosas son necesarias para que la empresa pueda actuar según el conocimiento que nos brindan los patrones.
Una breve historia de la ciencia de datos
El término ciencia de datos tiene una historia específica que se remonta a la década de 1990. Sin embargo, los campos en los que se basa tienen una historia mucho más larga. Un aspecto en esta historia más larga es la historia de la recopilación de datos; otro es la historia del análisis de datos. En esta sección, revisaremos los principales desarrollos en estos aspectos y describiremos cómo y por qué convergieron en el campo de la ciencia de datos. Por necesidad, esta revisión introduce una nueva terminología a medida que describimos y nombramos las innovaciones técnicas importantes a medida que vayan surgiendo. Para cada nuevo término proporciorenamos una breve explicación de su significado. Más adelante en el libro volveremos a muchos de estos términos y proporcionaremos una explicación más detallada de ellos. Comenzaremos con la historia de la recopilación de datos, luego presentaremos la historia del análisis de datos y, finalmente, cubriremos el desarrollo de la ciencia de datos.
La historia de la recopilación de datos
Los primeros métodos para registrar datos pueden haber sido marcas en palos para registrar el paso de los días o postes clavados en el suelo para marcar el amanecer en los solsticios. Con el desarrollo de la escritura, sin embargo, nuestra capacidad de registrar nuestras experiencias y los eventos en nuestro mundo aumentó enormemente la cantidad de datos que recopilamos. La primera forma de escritura se desarrolló en Mesopotamia alrededor del 3.200 a. C. y se utilizó para mantener registros comerciales. Este tipo de mantenimiento de registros captura lo que se conoce como datos transaccionales. Los datos transaccionales incluyen información de eventos como la venta de un artículo, la emisión de una factura, la entrega de bienes, el pago con tarjeta de crédito, las reclamaciones de seguros, etc. Los datos no transaccionales, como los datos demográficos, también tienen una larga historia. Los primeros censos conocidos tuvieron lugar en el Egipto faraónico alrededor del año 3.000 a. C. La razón por la cual los primeros estados pusieron tanto esfuerzo y recursos en grandes operaciones de recolección de datos fue que estos estados necesitaban aumentar los impuestos y los ejércitos, lo que demuestra la afirmación de Benjamin Franklin de que solo hay dos cosas ciertas en la vida: la muerte y los impuestos.
En los últimos 150 años, el desarrollo del sensor electrónico, la digitalización de datos y la invención de la computadora han contribuido a un aumento masivo en la cantidad de datos que se recopilan y almacenan. Un hito en la recopilación y el almacenamiento de datos ocurrió en 1970 cuando Edgar F. Codd publicó un artículo que explicaba el modelo de datos relacionales, que fue revolucionario en términos de establecer cómo se almacenaban, indexaban y recuperaban (en ese momento) los datos de las bases de datos. El modelo de datos relacionales permitió a los usuarios extraer datos de una base de datos mediante consultas simples que definían qué datos deseaba el usuario sin requerir que se preocupara por el estándar internacional de estructura subyacente para definir consultas de base de datos. Las bases de datos relacionales almacenan datos en tablas con una estructura de una fila por instancia y una columna por atributo. Esta estructura es ideal para almacenar datos porque puede descomponerse en atributos naturales.
Las bases de datos son la tecnología natural que se utiliza para almacenar y recuperar datos transaccionales u operativos estructurados (es decir, el tipo de datos generados por las operaciones diarias de una empresa). Sin embargo, a medida que las compañías se han vuelto más grandes y más automatizadas, la cantidad y variedad de datos generados por diferentes partes de estas compañías han aumentado dramáticamente. En la década de 1990, las empresas se dieron cuenta de que a pesar de que estaban acumulando enormes cantidades de datos, se encontraban repetidamente con dificultades para analizar esos datos. Parte del problema era que los datos a menudo se almacenaban en numerosas bases de datos separadas dentro de una organización. Otra dificultad era que las bases de datos estaban optimizadas para el almacenamiento y la recuperación de datos, actividades caracterizadas por altos volúmenes de operaciones simples, como SELECCIONAR, INSERTAR, ACTUALIZAR y ELIMINAR. Para analizar sus datos, estas compañías necesitaban tecnología que pudiera reunir y conciliar los datos de bases de datos dispares y que facilitara las operaciones de datos analíticos más complejos. Este desafío empresarial condujo al desarrollo de almacenes de datos. En un almacén de datos, los datos se toman de toda la organización y se integran, lo que proporciona un conjunto de datos más completo para el análisis.
En las últimas décadas, nuestros dispositivos se han vuelto móviles y conectados en red, y muchos de nosotros pasamos muchas horas en línea todos los días usando tecnologías sociales, juegos de computadora, plataformas de medios y motores de búsqueda web. Estos cambios en la tecnología y en cómo vivimos han tenido un impacto dramático en la cantidad de datos recopilados. Se estima que la cantidad de datos recopilados durante los cinco milenios desde la invención de la escritura hasta 2003 es de aproximadamente 5 exabytes. Desde 2013, los humanos generan y almacenan esta misma cantidad de datos todos los días. Sin embargo, no solo es la cantidad de datos recopilados lo que ha crecido dramáticamente sino también la variedad de datos. Solo considera la siguiente lista de fuentes de datos en línea: correos electrónicos, blogs, fotos, tweets, me gusta, recursos compartidos, búsquedas en la web, carga de videos, compras en línea, podcasts. Y si consideramos los metadatos (datos que describen la estructura y las propiedades de los datos brutos) de estos eventos, podemos comenzar a comprender el significado del término big data. El big data a menudo se define en términos de las tres V: el volumen extremo de datos, la variedad de los tipos de datos y la velocidad a la que deben procesarse los datos.
La llegada del big data ha impulsado el desarrollo de una gama de nuevas tecnologías de bases de datos. Esta nueva generación de bases de datos a menudo se conoce como “bases de datos NoSQL”. Por lo general, tienen un modelo de datos más simple que las bases de datos relacionales tradicionales. Una base de datos NoSQL almacena datos como objetos con atributos, utilizando un lenguaje de notación de objetos como el JavaScript Object Notation (JSON). La ventaja de usar una representación de datos de objetos (en contraste con un modelo basado en tablas relacionales) es que el conjunto de atributos para cada objeto está encapsulado dentro del objeto, lo que resulta en una representación flexible. Por ejemplo, puede ser que uno de los objetos en la base de datos, en comparación con otros objetos, solo tenga un subconjunto de atributos. Por el contrario, en la estructura de datos tabular estándar utilizada por una base de datos relacional, todos los puntos de datos deben tener el mismo conjunto de atributos (es decir, columnas). Esta flexibilidad en la representación de objetos es importante en contextos donde los datos no pueden (por variedad o tipo) descomponerse naturalmente en un conjunto de atributos estructurados. Por ejemplo, puede ser difícil definir el conjunto de atributos que deberían usarse para representar texto libre (como tweets) o imágenes. Sin embargo, aunque esta flexibilidad de representación nos permite capturar y almacenar datos en una variedad de formatos, estos datos aún deben extraerse en un formato estructurado antes de que se pueda realizar un análisis en ellos.
La existencia del big data también ha llevado al desarrollo de nuevos marcos de procesamiento de datos. Cuando se trata de grandes volúmenes de datos a altas velocidades, puede ser útil desde una perspectiva computacional y de velocid...
Índice
- Portada
- Créditos
- Portadilla
- Índice
- Prólogo de la serie
- Prefacio
- Agradecimientos
- Capítulo 1: ¿Qué es la ciencia de datos?
- Capítulo 2: ¿Qué son los datos y qué es un conjunto de datos?
- Capítulo 3: Un ecosistema de ciencia de datos
- Capítulo 4: Aprendizaje automático
- Capítulo 5: Tareas estándar de ciencia de datos
- Capítulo 6: Privacidad y ética
- Capítulo 7: Tendencias futuras y principios de éxito
- Glosario
- Notas
- Lecturas adicionales
- Referencias
Preguntas frecuentes
Sí, puedes cancelar tu suscripción en cualquier momento desde la pestaña Suscripción en los ajustes de tu cuenta en el sitio web de Perlego. La suscripción seguirá activa hasta que finalice el periodo de facturación actual. Descubre cómo cancelar tu suscripción
No, los libros no se pueden descargar como archivos externos, como los PDF, para usarlos fuera de Perlego. Sin embargo, puedes descargarlos en la aplicación de Perlego para leerlos sin conexión en el móvil o en una tableta. Descubre cómo descargar libros para leer sin conexión
Perlego ofrece dos planes: Essential y Complete
- El plan Essential es ideal para los estudiantes y los profesionales a los que les gusta explorar una amplia gama de temas. Accede a la biblioteca Essential, con más de 800 000 títulos de confianza y superventas sobre negocios, crecimiento personal y humanidades. Incluye un tiempo de lectura ilimitado y la voz estándar de «Lectura en voz alta».
- Complete: perfecto para los estudiantes avanzados y los investigadores que necesitan un acceso completo sin ningún tipo de restricciones. Accede a más de 1,4 millones de libros sobre cientos de temas, incluidos títulos académicos y especializados. El plan Complete también incluye funciones avanzadas como la lectura en voz alta prémium y el asistente de investigación.
Somos un servicio de suscripción de libros de texto en línea que te permite acceder a toda una biblioteca en línea por menos de lo que cuesta un libro al mes. Con más de un millón de libros sobre más de 990 categorías, ¡tenemos todo lo que necesitas! Descubre nuestra misión
Busca el símbolo de lectura en voz alta en tu próximo libro para ver si puedes escucharlo. La herramienta de lectura en voz alta lee el texto en voz alta por ti, resaltando el texto a medida que se lee. Puedes pausarla, acelerarla y ralentizarla. Obtén más información sobre la lectura en voz alta
¡Sí! Puedes usar la aplicación de Perlego en dispositivos iOS y Android para leer cuando y donde quieras, incluso sin conexión. Es ideal para cuando vas de un lado a otro o quieres acceder al contenido sobre la marcha.
Ten en cuenta que no será compatible con los dispositivos que se ejecuten en iOS 13 y Android 7 o en versiones anteriores. Obtén más información sobre cómo usar la aplicación
Ten en cuenta que no será compatible con los dispositivos que se ejecuten en iOS 13 y Android 7 o en versiones anteriores. Obtén más información sobre cómo usar la aplicación
Sí, puedes acceder a Ciencia de datos de John D. Kelleher,Brendan Tierney en formato PDF o ePUB, así como a otros libros populares de Biological Sciences y Desktop Applications. Tenemos más de un millón de libros disponibles en nuestro catálogo para que explores.