Big data
eBook - ePub

Big data

Breve manual para conocer la ciencia de datos que ya invadió nuestras vidas

  1. 208 páginas
  2. Spanish
  3. ePUB (apto para móviles)
  4. Disponible en iOS y Android
eBook - ePub

Big data

Breve manual para conocer la ciencia de datos que ya invadió nuestras vidas

Descripción del libro

Cada vez que deslizamos nuestros dedos por una pantalla e ingresamos a una página web para hacer una compra o buscar una dirección, cada vez que hacemos un posteo, damos un like o subimos una foto a las redes sociales, cada vez que usamos la tarjeta de crédito, el GPS, cada vez que… estamos generando datos, ¡cantidades espeluznantes de datos espontáneos! (de hecho, en los últimos dos años la humanidad produjo más datos que en toda su historia previa). ¿Adónde van a parar? ¿Quién los analiza, los procesa, los usa y para qué? ¿Acaso nos espían? ¿Cómo afectan nuestra vida?Ante este tsunami, el gran Walter Sosa Escudero nos inicia en el revolucionario mundo de big data, la explosión originada por la masividad de internet, que provee información instantánea acerca del comportamiento de miles de millones de usuarios. Pero tan importantes como los datos son los algoritmos, las técnicas estadísticas y computacionales que permiten procesarlos; por eso este libro nos presenta la nueva ciencia de datos, una disciplina que involucra la estadística, la matemática, la computación, el diseño y todas las áreas de la vida cotidiana que dependen de los datos: desde la política y la sociología hasta la medicina o la física, desde la empresa hasta el Estado.Además de presentar interesantes casos y métodos, y ante el optimismo a ultranza de algunos gurúes de big data, nuestro autor también se pregunta si esta catarata de información será capaz de cambiar radicalmente nuestra forma de ver y vivir en el mundo.En un tono coloquial pero con máximo rigor científico, este libro ofrece un paseo guiado por el aguacero de datos y algoritmos. No presupone ninguna formación técnica, tan solo la curiosidad de saber qué promete esta batalla, que unos ven como el comienzo de una nueva era y otros, como el mal que viene a destruir nuestra vida cotidiana.

Preguntas frecuentes

Sí, puedes cancelar tu suscripción en cualquier momento desde la pestaña Suscripción en los ajustes de tu cuenta en el sitio web de Perlego. La suscripción seguirá activa hasta que finalice el periodo de facturación actual. Descubre cómo cancelar tu suscripción.
Por el momento, todos los libros ePub adaptables a dispositivos móviles se pueden descargar a través de la aplicación. La mayor parte de nuestros PDF también se puede descargar y ya estamos trabajando para que el resto también sea descargable. Obtén más información aquí.
Perlego ofrece dos planes: Esencial y Avanzado
  • Esencial es ideal para estudiantes y profesionales que disfrutan explorando una amplia variedad de materias. Accede a la Biblioteca Esencial con más de 800.000 títulos de confianza y best-sellers en negocios, crecimiento personal y humanidades. Incluye lectura ilimitada y voz estándar de lectura en voz alta.
  • Avanzado: Perfecto para estudiantes avanzados e investigadores que necesitan acceso completo e ilimitado. Desbloquea más de 1,4 millones de libros en cientos de materias, incluidos títulos académicos y especializados. El plan Avanzado también incluye funciones avanzadas como Premium Read Aloud y Research Assistant.
Ambos planes están disponibles con ciclos de facturación mensual, cada cuatro meses o anual.
Somos un servicio de suscripción de libros de texto en línea que te permite acceder a toda una biblioteca en línea por menos de lo que cuesta un libro al mes. Con más de un millón de libros sobre más de 1000 categorías, ¡tenemos todo lo que necesitas! Obtén más información aquí.
Busca el símbolo de lectura en voz alta en tu próximo libro para ver si puedes escucharlo. La herramienta de lectura en voz alta lee el texto en voz alta por ti, resaltando el texto a medida que se lee. Puedes pausarla, acelerarla y ralentizarla. Obtén más información aquí.
¡Sí! Puedes usar la app de Perlego tanto en dispositivos iOS como Android para leer en cualquier momento, en cualquier lugar, incluso sin conexión. Perfecto para desplazamientos o cuando estás en movimiento.
Ten en cuenta que no podemos dar soporte a dispositivos con iOS 13 o Android 7 o versiones anteriores. Aprende más sobre el uso de la app.
Sí, puedes acceder a Big data de Walter Sosa Escudero en formato PDF o ePUB, así como a otros libros populares de Technology & Engineering y Technology & Engineering Research & Skills. Tenemos más de un millón de libros disponibles en nuestro catálogo para que explores.

Información

1. Perdidos en el océano de datos
Big data, aprendizaje automático, ciencia de datos, estadística y otras yerbas
−Doctor, escúcheme, esta gente está muy mal. Me dicen que tengo que hacer un curso de Hadoop, me hablan de modelos obesos, de riesgo de Bayes, de matrices de confusión y de la curva ROC. No, doctor, rock, no, ¡ROC! Bueh, no sé, en algún momento nombraron a Reproducing Kernel Hilbert Space, y yo creí que era grupo de rock psicodélico de los setenta, como Pink Floyd… Doctor, no entiendo nada. ¡Socorrooooooo!
¿Así que no entendieron nada? No se preocupen, no están solos. Los datos son tierra de todos y de nadie. Y como en la Buenos Aires de comienzos del siglo XX, en el ambiente del análisis de datos se escucha hablar ese cocoliche propio de quien intenta decir en castellano lo que los años le enseñaron en otro idioma.
Este capítulo es nuestra primera visita a la políglota metrópolis de los datos. Fracasaremos en nuestro primer intento de definir qué es big data, pero saldremos airosos diciendo que, hasta ahora, todos los intentos han sido fallidos. Visitaremos los bodegones nobles de la estadística y nos deleitaremos en los nuevos restobar del aprendizaje automático. Nos detendremos a apreciar el monumental edificio de datos que construye big data y seremos testigos de algunas disputas entre los viejos cocineros de la estadística y los nuevos chefs de la ciencia de datos. Y al finalizar el recorrido tal vez ya no les resulten tan raros algunos de los términos esotéricos del comienzo.
El Elvis Presley de la ciencia de datos (vida, muerte, resurrección y nueva muerte de Google Flu Trends)
El 4 de julio de 2009 fue un sábado de sol radiante en Buenos Aires. Cinco días antes las autoridades habían decidido cerrar todas las escuelas por temor a la propagación de la pandemia de gripe A, medida que afectó a casi 11 millones de estudiantes, incluyendo a mi hijo, que en ese entonces tenía 6 años. Y tras cuatro días de encierro, concluimos con mi esposa que salir a dar una vuelta en auto no podía ser mucho más peligroso que la PlayStation, que tenía atrapado a mi hijo en su confinamiento. La ciudad nos devolvió un panorama desolador: las calles vacías, los negocios tristes, los carteles oportunistas de venta de alcohol en gel, y alguno que otro transeúnte con barbijo, como esos que hasta la fecha solo habíamos visto por televisión, en el aeropuerto de algún lejano país, como Japón.
Epidemias como la gripe A son un serio desafío para la salud pública, y es crucial monitorear con precisión y rapidez su evolución, tanto en el espacio (por dónde se reproduce) como en el tiempo (a qué velocidad). Se trata de una tarea compleja, aun para naciones desarrolladas como los Estados Unidos. En 2009, la forma de llevar a cabo el monitoreo en ese país era a través de un sistema de reportes estadísticos coordinados por el Centro para el Control y la Prevención de las Enfermedades (CDC). Las unidades hospitalarias (clínicas, salas, hospitales, etc.) recababan información de las consultas por síntomas de gripe A, sus tratamientos y algunas características demográficas de los pacientes (género, edad, etc.). Estos reportes eran agregados a nivel de ciudad, condado, estado y región, y finalmente condensados en un informe a nivel nacional. Todo este proceso tomaba unos diez días: demasiado tiempo para una epidemia peligrosa como la gripe A.
En la antesala de la pandemia, la empresa Google propuso un ingenioso mecanismo –Google Flu Trends– que prometía bajar el rezago informativo de diez días a tan solo uno: un gol de media cancha de big data. El punto de partida del método fue una base de datos pequeña, de la cantidad semanal de visitas por gripe A a las unidades hospitalarias de las nueve regiones en las que el CDC divide a los Estados Unidos, entre 2003 y 2007, y medidas como porcentaje del total de visitas. Nueve regiones por cinco años, por 52 semanas da 2340 datos. Por ejemplo, uno de los datos diría que en la región 3, en la semana 12 de 2005, 1,2% de las personas que visitaron hospitales o clínicas lo hicieron con síntomas de gripe A. Estos datos miden cómo se distribuye la enfermedad por región y en el tiempo, o sea, es “la” variable que se precisa para monitorear la pandemia y que, según dijimos, tomaba unos diez días en elaborarse.
Estas localizaciones de datos no nos resultan tan extrañas. Ahora, por ejemplo, mientras espero aburrido que mi hijo salga de un cumpleaños, descubro en el celular una simpática opción en Google Maps que se llama “tus rutas”. Con pasmoso detalle me muestra todos los lugares en los que estuve durante el día: mi ruta al trabajo, la bicicleteada junto al río, las tres cuadras que me desvié para comprar leche en el supermercado, etc., etc. Además de nuestra localización geográfica, Google ve y atesora las canciones, libros, colegas, restaurantes, zapateros, vendedores de heladeras, direcciones, teléfonos de delivery y todo, absolutamente todo, lo que hemos buscado. Y también cuando una mamá atemorizada escribió “mi hijo tiene gripe A” en el buscador, y cuando otra persona puso “tengo fiebre, tos y estoy fatigado”, y cuando otro tipeó “remedio influenza”.
Aquí interviene el análisis de datos. Los expertos de Google cruzaron los 2340 datos de porcentaje de visitas a hospitales con la proporción de búsquedas relacionadas con la gripe A en cada período y región. Fácil no es: hay que empezar por definir qué significa “búsquedas relacionadas con la gripe A”, lo que requiere un delicado trabajo de “curación”, es decir, decidir qué términos y frases se relacionan estrictamente con esta enfermedad y cuáles no. Concretamente, poner en Google “tengo frío” puede ser tan compatible con síntomas de gripe A como con la mera llegada del invierno. Luego de concluida esta delicada tarea, Google disponía de 2340 pares de datos: la intensidad de visitas a hospitales por gripe A –provenientes de la información oficial– y las búsquedas en Google de términos relacionados con la enfermedad –proporcionadas por la misma empresa–, para cada región, año y semana. Con estos datos, los científicos de Google construyeron un modelo para predecir la intensidad de gripe A sobre la base de la intensidad de búsquedas.
Típicamente, para aprender a manejar alguna técnica, en una clase de estadística los alumnos estiman algún modelo simple usando datos reales; “modelo” entendido no como un ideal, sino como una representación matemática o computacional de la realidad. Los científicos de Google estimaron 450 millones de modelos alternativos para elegir el que mejor predice la gripe A sobre la base de la intensidad de búsqueda. Un punto importante es que todo este proceso de estimación (que más adelante definiremos como “de aprendizaje”) se basó solo en 2340 pares de datos, de intensidad de consultas y búsquedas semanales y a nivel de región, es decir, sobre la base de la desagregación más fina posible; a nivel de hospital en una región, para una semana en particular. Pero una vez construido el modelo, podría usarse para predecir la intensidad de la epidemia a partir de cualquier información disponible sobre intensidad de búsqueda.
Y en esta parte de la historia Google saca a relucir su monstruosa base de datos. A diferencia de la agencia de control estadounidense, que solo ve datos semanales y por región, Google puede observar la intensidad de búsquedas en cualquier parte, en tiempo real y con un nivel de precisión tan fino como sea necesario. Es decir, Google puede medir, por ejemplo, la intensidad de búsquedas sobre gripe A en Monticello, un minúsculo pueblito del estado de Illinois y, a partir del modelo estimado previamente, predecir la intensidad de la enfermedad en ese lugar. Y también puede hacerlo de forma diaria, semana o mensual, tanto para Monticello como para la ciudad de Nueva York, el estado de California o cualquiera de las nueve regiones en las que el CDC divide a los Estados Unidos.
En definitiva, a Google le toma solo un día hacer lo que al sistema público de una de las naciones más ricas del planeta le toma diez, y con una capacidad predictiva mucho más microscópica. Es David dándole una contundente paliza a Goliat.
De ser big data rock and roll, Google Flu Trends sería Elvis: el abanderado insignia de la revolución de datos y algoritmos, entendidos como procedimientos y reglas sistemáticas para hallar la solución a un problema. Éxito rotundo, resultados publicados en la prestigiosísima revista Nature, “aplauso, medalla y beso”, como se decía en un vetusto programa de televisión argentino. Pero los aficionados al rock sabemos que luego del éxito masivo a Elvis le sobrevino el ostracismo y una inoportuna convocatoria para hacer el servicio militar en 1958. Derrotero similar sufrió Google Flu Trends, cuyos éxitos predictivos se transformaron rápidamente en preocupantes desaciertos. En particular, para varios períodos el algoritmo predice intensidad de gripe A muy por arriba de la realidad. Varios analistas dicen que este error se debe a que Google alteró sus motores de búsqueda para retener a los que entran al buscador con consultas relacionadas con la gripe A, como si escribiesen “síntomas gripe A” y Google les sugiriese buscar términos como “tos” o “jarabe”, reteniéndolos en el buscador para ofrecerles publicidad. Es decir, los cambios en los procesos de búsqueda de Google indujeron espuriamente a más búsquedas sobre la gripe A, lo que implicó que se sobredimensionara su intensidad y, por lo tanto, la epidemia. Sin embargo, como Elvis a fines de los sesenta y su exitosísimo comeback ya en épocas de Los Beatles, Google Flu Trends fue resucitado por la comunidad científica, que logró reparar algunos de sus errores y restablecer parte de su credibilidad. No obstante, en agosto de 2015 Google dio de baja el acceso público al servicio, si bien sigue recolectando información que es enviada para su análisis a la Universidad de Columbia y otras instituciones científicas.
En su momento, Google Flu Trends fue el “chico de tapa” de big data: los algoritmos contra la burocracia, los datos versus la teoría. Y todavía no sabemos si hemos visto su final definitivo, como con Elvis, quien más allá de su regreso glorioso terminó sus días prematuramente cuando ya era una cruel caricatura de sí mismo, o si surfeará exitosamente el paso del tiempo cual Keith Richards, a quien en los setenta, por sus excesos, nadie le daba más de un par de años de vida.
Hace unos treinta años que me dedico profesionalmente a la estadística. Y cada cinco años emerge una tecnología destinada a barrer con todo lo existente, para luego desvanecerse con la misma intensidad. Entonces, hago mías las palabras de Charly García: “mientras miro las nuevas olas, yo ya soy parte del mar”, tanto en lo que se refiere a la actitud suspicaz de quien vio ir y venir las modas, como a la de quien –como el propio García– no dudó en reemplazar su larga melena hippie por uno de esos “raros peinados nuevos” y abrazar la nueva tecnología musical de los ochenta para mantener intacta su creatividad de los setenta.
En tecnología y en ciencia, quien se cierra a las innovaciones porque cree que van a pasar de moda recuerda al adolescente que no se baña porque “total me voy a volver a ensuciar”, y a la larga termina viviendo en escasas condiciones de higiene. El derrotero de Google Flu Trends es una linda alegoría de lo que sucede actualmente. Los talibanes de los datos creen que big data reemplazará a todo tipo de conocimiento y solo ven su parte exitosa. Los escépticos, por el contrario, creen que es una moda pasajera y únicamente relatan su costado negativo. A nosotros nos toca contar toda la historia, de éxitos y fracasos, de aciertos y aprendizajes, de revoluciones y fiascos, de muertes y resurrecciones. E inferir la que todavía no hemos visto.
¿De qué hablamos cuando hablamos de big data?
Si un habitante del futuro pudiese viajar en el tiempo a septiembre de 2016, le llamaría la atención ver a un montón de personas en la calle haciendo movimientos extraños con sus teléfonos celulares: era el inicio de la histeria de la caza de Pokemones. Se trataba de ubicar, perseguir y atrapar a esas criaturas virtuales –los Pokemones– de esotéricos nombres como Rowlet, Dartix o Decidueye. Para la misma época, la revolución de big data vino acompañada de términos como “Seahorse” (un entorno visual), “Hadoop” (un sistema de código abierto) o “Summingbird” (una biblioteca virtual de programación). No tardó mucho en aparecer un hilarante sitio web llamado “¿Es Pokemon o big data?”, que proponía un jueguito virtual que consistía en adivinar si un término pertenecía a la jerga de big data o de Pokemon.
Uno de los enormes problemas de cualquier tecnología de moda es que viene acompañada de jerga: un catálogo de extraños términos, muchos en inglés e intraducibles, que sirve tanto a los efectos de designar objetos nuevos e imposibles de nombrar con los viejos términos, como de crear una innecesaria barrera a la entrada, al solo efecto de impresionar a los novatos en las reuniones de amigos como si realmente fuese necesaria una nueva palabra para referirse al agua tibia. La propia expresión “big data” es jerga. Cualquiera que haya permanecido durante quince minutos en una clase de inglés se da cuenta de que “big” significa “grande” y que “data” son “datos”. No intentaremos ninguna traducción del término, porque no hay ninguna comúnmente aceptada (he visto “gran dato”, que parece provenir de las frases del Tarzán de Ron Ely en Sábados de superacción), y porque tampoco está claro que “big data” tenga un significado preciso.
Este libro debería comenzar aclarando entonces qué es big data, en el mismo sentido y con la misma dificultad con que un libro de jazz debería decir qué es el swing. Pregúntenle a un avezado jazzero qué es el swing y es probable que reciban como respuesta la que dio Louis Armstrong cuando alguien lo interrogó sobre qué era el jazz: “Desde que me lo preguntas, me di cuenta de que nunca lo entenderás”. Lo más obvio es decir que big data son “datos masivos”. Pero en realidad se refiere al volumen y tipo de datos provenientes de la interacción con dispositivos interconectados, como teléfonos celulares, tarjetas de crédito, cajeros automáticos, relojes inteligentes, computadoras personales, dispositivos de GPS y cualquier objeto capaz de producir información y enviarla electrónicamente a otra parte.
Piensen en lo que hicieron en las últimas dos horas. Si caminaron con su celular, muy posiblemente hayan generado datos de su ubicación geográfica, y ni hablar si activaron el GPS para viajar en auto. Lo mismo si salieron a correr con su reloj inteligente que les cuenta el ritmo cardíaco y los pasos. O si usaron la tarjeta de crédito, viajaron en subte, se entretuvieron con una serie en Netflix, le pusieron “me gusta” a una foto de su tía en Facebook, si mandaron o recibieron un e-mail o si buscaron un par de zapatos en Amazon. Todo generó datos.
Más adelante hablaremos acerca de que la cantidad de datos que se produce a través de estos medios desafía cualquier concepto de inmensidad que hayamos considerado nunca. Pero el volumen (big) es solo una parte de la historia. A diferencia de una encuesta sistemática, como una encuesta política o esas que todavía funcionan por teléfono de línea, los datos de big data son anárquicos y espontáneos. Toda vez que abrieron su celular para que una app de GPS los guíe hacia algún lugar, han generado datos, no con el propósito de contribuir a ninguna encuesta ni estudio científico, sino con el de evitar el tráfico o perderse. Es decir, los datos no fueron generados por el propósito de crearlos, como en las respuestas a una encuesta tradicional, sino como resultado de otra acción: ir a una reunión, pagar con una tarjeta de crédito, entrar a un sitio web, etc.
Entonces, los datos de big data no son más de los mismos viejos datos (de encuestas, registros administrativos, etc.), sino un animal completamente distinto. En 2001, Doug Laney, analista de la consultora Gartner, escribió un influyente artículo en el que resumió esta discusión diciendo que la revolución de big data tenía que ver con las ahora archifamosas “tres V de big data”: volumen, velocidad y variedad. La primera de las V hace referencia a “big” –mucho–. La segunda se refiere a que los datos de big data se generan a una velocidad que los hace disponibles a una tasa prácticamente virtual, en tiempo real. Y la tercera –variedad– remite a la naturaleza espontánea, anárquica y amorfa del objeto que ahora llamamos “dato”: un tuit, una posición geográfica de un GPS o una foto, todo constituye un dato, muy lejos de los datos tradicionales, esos que uno imagina prolijamente ordenados en una planilla de cálculo. El truco comunicacional de las tres V es efectivo para decir que big data es bastante más que muchos datos. Pronto fue necesario agregar una cuarta V: veracidad, término que se refiere a que la naturaleza ruidosa y espontánea de los datos de big data contrasta con la de los datos burocráticos o de encuestas tradicionales, usualmente sometidos a puntillosos ejercicios de validación.
Pero en algún momento lo de las V se desmadró, y añadir una más a la lista original se transformó en algo no muy distinto de la caza de Pokemones: otra tontera social. En un jocoso artículo reciente, Tom Shafer habla de “las 42 V de big data”: las tres iniciáticas propuestas por Laney, las dos o tres que juiciosamente se agregaron en años posteriores, como “veracidad”, y la insólita lista que se añadió recientemente, que incluye “vudú”, “vainilla” o “varifocal” (no, no les miento).
Chanzas aparte, una definición de big data qu...

Índice

  1. Cubierta
  2. Índice
  3. Portada
  4. Copyright
  5. Este libro (y esta colección)
  6. Dedicatoria
  7. Agradecimientos
  8. Introducción acuífera
  9. 1. Perdidos en el océano de datos. Big data, aprendizaje automático, ciencia de datos, estadística y otras yerbas
  10. 2. Livin’ la vida data. Historias de datos y algoritmos en la sociedad
  11. 3. Una nueva ferretería para el aluvión de datos. Herramientas, técnicas y algoritmos
  12. 4. Gran Hermano, gran data. Datos y algoritmos hasta en la sopa
  13. 5. Cajas negras para magia blanca. Más herramientas para el aprendizaje automático
  14. 6. No todo lo que brilla es oro. La letra chica de los datos y los algoritmos
  15. 7. Puedo ver crecer el pasto. El futuro del futuro de los datos
  16. Comentarios finales, ya sobre tierra firme
  17. Referencias comentadas
  18. Bibliografía comentada