Las bases de Big Data
eBook - ePub

Las bases de Big Data

Enrique Martín, Rafael Caballero

Compartir libro
  1. 110 páginas
  2. Spanish
  3. ePUB (apto para móviles)
  4. Disponible en iOS y Android
eBook - ePub

Las bases de Big Data

Enrique Martín, Rafael Caballero

Detalles del libro
Vista previa del libro
Índice
Citas

Información del libro

Cada clic en Internet es un dato que bien aprovechado puede servir, por ejemplo, para adecuar las páginas a nuestras preferencias, pero también para ofrecer publicidad personalizada. Los teléfonos móviles emiten constantemente datos sobre nuestra ubicación o el uso de aplicaciones. Al viajar en transporte público y validar un billete, contribuimos a una base de datos que sirve para decidir qué líneas de transporte se utilizan más y a qué horas. Al pagar con tarjeta, aportamos a nuestro banco información sobre nuestros hábitos y también a la tienda sobre los productos que hemos comprado. Estos ejemplos muestran que cada vez vivimos en un mundo más repleto de datos, a menudo producidos por nosotros mismos sin darnos cuenta. Este inmenso trasiego de datos solo se convierte en información útil cuando se procesa y analiza, es entonces cuando se vislumbra su potencial. Aunque a simple vista puede parecer un truco de magia, este libro desvela la ciencia que hay detrás de Big Data: las bases de datos NoSQL. El fin último de este libro no solo es presentar datos curiosos e interesantes, sino dar una visión no técnica, pero sí detallada y crítica, que permita al lector comprender mejor el mundo de los grandes datos, su procesamiento y el negocio que supone.

Preguntas frecuentes

¿Cómo cancelo mi suscripción?
Simplemente, dirígete a la sección ajustes de la cuenta y haz clic en «Cancelar suscripción». Así de sencillo. Después de cancelar tu suscripción, esta permanecerá activa el tiempo restante que hayas pagado. Obtén más información aquí.
¿Cómo descargo los libros?
Por el momento, todos nuestros libros ePub adaptables a dispositivos móviles se pueden descargar a través de la aplicación. La mayor parte de nuestros PDF también se puede descargar y ya estamos trabajando para que el resto también sea descargable. Obtén más información aquí.
¿En qué se diferencian los planes de precios?
Ambos planes te permiten acceder por completo a la biblioteca y a todas las funciones de Perlego. Las únicas diferencias son el precio y el período de suscripción: con el plan anual ahorrarás en torno a un 30 % en comparación con 12 meses de un plan mensual.
¿Qué es Perlego?
Somos un servicio de suscripción de libros de texto en línea que te permite acceder a toda una biblioteca en línea por menos de lo que cuesta un libro al mes. Con más de un millón de libros sobre más de 1000 categorías, ¡tenemos todo lo que necesitas! Obtén más información aquí.
¿Perlego ofrece la función de texto a voz?
Busca el símbolo de lectura en voz alta en tu próximo libro para ver si puedes escucharlo. La herramienta de lectura en voz alta lee el texto en voz alta por ti, resaltando el texto a medida que se lee. Puedes pausarla, acelerarla y ralentizarla. Obtén más información aquí.
¿Es Las bases de Big Data un PDF/ePUB en línea?
Sí, puedes acceder a Las bases de Big Data de Enrique Martín, Rafael Caballero en formato PDF o ePUB, así como a otros libros populares de Ciencia de la computación y Bases de datos. Tenemos más de un millón de libros disponibles en nuestro catálogo para que explores.

Información

Año
2020
ISBN
9788490977750

Capítulo 1

Un poco de historia





Para situar Big Data en su contexto necesitamos comprender la evolución que ha tenido el tratamiento automático de los datos desde la aparición de los primeros ordenadores. En este capítulo vamos a revisar esta parte de la historia, cuando los grandes datos eran sobre todo problemas de las oficinas del censo y las grandes bibliotecas.

Los tiempos heroicos

El almacenamiento y procesamiento de datos ha sido una de las tareas asociadas a los ordenadores desde sus inicios. El primer ordenador comercial, el UNIVAC I, construido en 1951, fue adquirido por la Oficina del Censo de Estados Unidos para tratar la ingente cantidad de información obtenida en los censos que se realizaban cada 10 años, a la que había que sumar los datos que comenzaban a recopilarse a través de muchas otras fuentes: hospitales, escuelas, etc. Pronto, UNIVAC reveló su potencia a la hora de realizar cálculos y predicciones estadísticas imposibles hasta el momento. Uno de sus mayores éxitos fue la predicción del resultado de las elecciones presidenciales de 1952. A partir de un recuento de tan solo un 1% del total de votos, UNIVAC predijo que el siguiente presidente sería Eisenhower, mientras la mayoría de los comentaristas políticos daban como ganador a su rival, el hoy olvidado Stevenson. Ni que decir tiene que ambos, UNIVAC y Eisenhower resultaron ganadores. Eisenhower fue presidente durante ocho años y UNIVAC siguió trabajando para la Oficina del Censo incluso más tiempo, jubilándose con honores en 1963. Pero la consecuencia más importante de esta anécdota fue que la población en general se hizo consciente de las posibilidades que ofrecía el manejo de datos por parte de aquellos nuevos aparatos, los ordenadores. La publicidad fue tal, que la empresa constructora llego a vender 46 copias de UNIVAC, una cantidad importante si se piensa que empezaron costando 159.000 dólares y tras el éxito de las elecciones presidenciales su precio se multiplicó por 10. Además del dinero, para disponer de un UNIVAC había que tener un sitio donde colocarlo, ya que la instalación requería algo más de 35 m2 de espacio y pesaba alrededor de 13 toneladas. Todo para una memoria principal de 12 Kb, lo que supone que se hubieran necesitado alrededor de 50.000 UNIVAC para tener la memoria interna de un móvil modesto de hoy en día.
Por cierto, que como en el resto del libro vamos a usar bastante las unidades de almacenamiento, no está de más recordar que un carácter se almacena generalmente en un byte, que un kilobyte, abreviado kB, equivale a 1.000 bytes o caracteres (en algunos lugares se dice que 1 kB son 1.024 y no 1.000 bytes, pero aquí vamos a seguir la convención del Sistema Internacional de Unidades, más fácil de recordar). Por su parte, un megabyte (MB) son 1.000 kB, un gigabyte (GB) son 1.000 MB, un terabyte (TB) son 1.000 GB y un petabyte (PB) son 1.000 TB. Echando cuentas vemos que un petabyte es una cantidad de bytes que se escribe como un uno seguido de 15 ceros. Para hacernos una idea, un libro de 700 páginas en formato epub suele ocupar una media de 500 kB, por lo que un petabyte serían más o menos 2.000 millones de libros de 700 páginas.
Pero en aquellos tiempos se hablaba de unos pocos kB de memoria principal, la memoria interna que se borra al apagar el ordenador y que comúnmente llamamos RAM. La escasez de RAM se suplía con grandes cantidades de memoria secundaria, concepto que hoy corresponde a las tarjetas SD, discos duros, CD’s, pen drives y cualquier aparato que sirva para almacenar datos de forma más o menos permanente. La memoria secundaria de la época estaba formada principalmente por las tarjetas perforadas y por las cintas magnéticas. Las tarjetas perforadas contenían normalmente los programas y datos individuales, mientras que las cintas magnéticas se empleaban cuando se querían guardar grandes cantidades de datos. La Oficina del Censo almacenaba los datos de los censados en cintas magnéticas. Por ejemplo, podemos imaginar que por cada individuo se almacena un código único (al que para utilizar un término conocido podemos llamar DNI), el nombre completo, la dirección y la edad. El conjunto de estos datos constituye lo que se conocía en la época como un registro. Las cintas del censo tenían multitud de registros, uno por cada persona censada.
El proceso de lectura y escritura en una cinta se asemejaba mucho al de los posteriores casetes, o para los lectores más jóvenes, al acto de desenrollar un carrete de hilo mientras se va enrollando en otro inicialmente vacío. Obviamente, todo el censo no cabía en una sola cinta, se necesitaba una gran cantidad de cintas clasificadas y custodiadas con sumo cuidado. Para buscar los datos de un individuo, se empezaba por localizar la cinta correspondiente para posteriormente colocarla y que el ordenador la leyera hasta encontrar el registro concreto. Las cintas estaban etiquetadas, digamos que con las letras iniciales del apellido del primer registro, e interesaba tener los registros de una misma cinta en orden normalmente por apellidos, pero esto introducía nuevas complicaciones.
Imaginemos por un momento que trabajamos en el departamento informático de una Oficina del Censo en los años 50 o 60 del siglo XX. Para simplificar, supongamos que estamos en un país pequeñito y que los registros de todos los habitantes caben en una sola cinta. Justitos, pero caben. Como somos muy diligentes, hemos logrado que las tarjetas perforadas con los datos de cada habitante, una por individuo, estén por fin ordenadas alfabéticamente. Obviamente, no lo hemos hecho a mano, sino mediante algún ordenador que ha hecho honor a su nombre y que ha sido capaz de manipular y ordenar enormes cantidades de tarjetas en pocos segundos. Ahora pasamos los registros en tarjeta a una cinta magnética, que nos permitirá olvidarnos de las tarjetas y consultar la información, obtener estadísticas, etc., de forma más rápida y eficaz. El proceso de pasar tarjetas a la cinta es también automático, pero engorroso y costoso en tiempo y energía. Y estamos en una época en la que el tiempo de uso del ordenador es muy costoso, dada la escasez y el coste de cada aparato. Lo importante es que al fi...

Índice