esta sección, revisaremos los principales desarrollos en estos aspectos y describiremos cómo y por qué convergieron en el campo de la ciencia de datos. Por necesidad, esta revisión introduce una nueva terminología a medida que describimos y nombramos las innovaciones técnicas importantes a medida que vayan surgiendo. Para cada nuevo término proporciorenamos una breve explicación de su significado. Más adelante en el libro volveremos a muchos de estos términos y proporcionaremos una explicación más detallada de ellos. Comenzaremos con la historia de la recopilación de datos, luego presentaremos la historia del análisis de datos y, finalmente, cubriremos el desarrollo de la ciencia de datos.
La historia de la recopilación de datos
Los primeros métodos para registrar datos pueden haber sido marcas en palos para registrar el paso de los días o postes clavados en el suelo para marcar el amanecer en los solsticios. Con el desarrollo de la escritura, sin embargo, nuestra capacidad de registrar nuestras experiencias y los eventos en nuestro mundo aumentó enormemente la cantidad de datos que recopilamos. La primera forma de escritura se desarrolló en Mesopotamia alrededor del 3.200 a. C. y se utilizó para mantener registros comerciales. Este tipo de mantenimiento de registros captura lo que se conoce como datos transaccionales. Los datos transaccionales incluyen información de eventos como la venta de un artículo, la emisión de una factura, la entrega de bienes, el pago con tarjeta de crédito, las reclamaciones de seguros, etc. Los datos no transaccionales, como los datos demográficos, también tienen una larga historia. Los primeros censos conocidos tuvieron lugar en el Egipto faraónico alrededor del año 3.000 a. C. La razón por la cual los primeros estados pusieron tanto esfuerzo y recursos en grandes operaciones de recolección de datos fue que estos estados necesitaban aumentar los impuestos y los ejércitos, lo que demuestra la afirmación de Benjamin Franklin de que solo hay dos cosas ciertas en la vida: la muerte y los impuestos.
En los últimos 150 años, el desarrollo del sensor electrónico, la digitalización de datos y la invención de la computadora han contribuido a un aumento masivo en la cantidad de datos que se recopilan y almacenan. Un hito en la recopilación y el almacenamiento de datos ocurrió en 1970 cuando Edgar F. Codd publicó un artículo que explicaba el modelo de datos relacionales, que fue revolucionario en términos de establecer cómo se almacenaban, indexaban y recuperaban (en ese momento) los datos de las bases de datos. El modelo de datos relacionales permitió a los usuarios extraer datos de una base de datos mediante consultas simples que definían qué datos deseaba el usuario sin requerir que se preocupara por el estándar internacional de estructura subyacente para definir consultas de base de datos. Las bases de datos relacionales almacenan datos en tablas con una estructura de una fila por instancia y una columna por atributo. Esta estructura es ideal para almacenar datos porque puede descomponerse en atributos naturales.
Las bases de datos son la tecnología natural que se utiliza para almacenar y recuperar datos transaccionales u operativos estructurados (es decir, el tipo de datos generados por las operaciones diarias de una empresa). Sin embargo, a medida que las compañías se han vuelto más grandes y más automatizadas, la cantidad y variedad de datos generados por diferentes partes de estas compañías han aumentado dramáticamente. En la década de 1990, las empresas se dieron cuenta de que a pesar de que estaban acumulando enormes cantidades de datos, se encontraban repetidamente con dificultades para analizar esos datos. Parte del problema era que los datos a menudo se almacenaban en numerosas bases de datos separadas dentro de una organización. Otra dificultad era que las bases de datos estaban optimizadas para el almacenamiento y la recuperación de datos, actividades caracterizadas por altos volúmenes de operaciones simples, como SELECCIONAR, INSERTAR, ACTUALIZAR y ELIMINAR. Para analizar sus datos, estas compañías necesitaban tecnología que pudiera reunir y conciliar los datos de bases de datos dispares y que facilitara las operaciones de datos analíticos más complejos. Este desafío empresarial condujo al desarrollo de almacenes de datos. En un almacén de datos, los datos se toman de toda la organización y se integran, lo que proporciona un conjunto de datos más completo para el análisis.
En las últimas décadas, nuestros dispositivos se han vuelto móviles y conectados en red, y muchos de nosotros pasamos muchas horas en línea todos los días usando tecnologías sociales, juegos de computadora, plataformas de medios y motores de búsqueda web. Estos cambios en la tecnología y en cómo vivimos han tenido un impacto dramático en la cantidad de datos recopilados. Se estima que la cantidad de datos recopilados durante los cinco milenios desde la invención de la escritura hasta 2003 es de aproximadamente 5 exabytes. Desde 2013, los humanos generan y almacenan esta misma cantidad de datos todos los días. Sin embargo, no solo es la cantidad de datos recopilados lo que ha crecido dramáticamente sino también la variedad de datos. Solo considera la siguiente lista de fuentes de datos en línea: correos electrónicos, blogs, fotos, tweets, me gusta, recursos compartidos, búsquedas en la web, carga de videos, compras en línea, podcasts. Y si consideramos los metadatos (datos que describen la estructura y las propiedades de los datos brutos) de estos eventos, podemos comenzar a comprender el significado del término big data. El big data a menudo se define en términos de las tres V: el volumen extremo de datos, la variedad de los tipos de datos y la velocidad a la que deben procesarse los datos.
La llegada del big data ha impulsado el desarrollo de una gama de nuevas tecnologías de bases de datos. Esta nueva generación de bases de datos a menudo se conoce como “bases de datos NoSQL”. Por lo general, tienen un modelo de datos más simple que las bases de datos relacionales tradicionales. Una base de datos NoSQL almacena datos como objetos con atributos, utilizando un lenguaje de notación de objetos como el JavaScript Object Notation (JSON). La ventaja de usar una representación de datos de objetos (en contraste con un modelo basado en tablas relacionales) es que el conjunto de atributos para cada objeto está encapsulado dentro del objeto, lo que resulta en una representación flexible. Por ejemplo, puede ser que uno de los objetos en la base de datos, en comparación con otros objetos, solo tenga un subconjunto de atributos. Por el contrario, en la estructura de datos tabular estándar utilizada por una base de datos relacional, todos los puntos de datos deben tener el mismo conjunto de atributos (es decir, columnas). Esta flexibilidad en la representación de objetos es importante en contextos donde los datos no pueden (por variedad o tipo) descomponerse naturalmente en un conjunto de atributos estructurados. Por ejemplo, puede ser difícil definir el conjunto de atributos que deberían usarse para representar texto libre (como tweets) o imágenes. Sin embargo, aunque esta flexibilidad de representación nos permite capturar y almacenar datos en una variedad de formatos, estos datos aún deben extraerse en un formato estructurado antes de que se pueda realizar un análisis en ellos.
La existencia del big data también ha llevado al desarrollo de nuevos marcos de procesamiento de datos. Cuando se trata de grandes volúmenes de datos a altas velocidades, puede ser útil desde una perspectiva computacional y de velocidad distribuir los datos en varios servidores, procesar consultas calculando resultados parciales de una consulta en cada servidor y luego combinar estos resultados para generar la respuesta a la consulta. Este es el enfoque adoptado por el marco de MapReduce en Hadoop. En el marco de MapReduce, los datos y las consultas se asignan a (o se distribuyen en) varios servidores, y los resultados parciales calculados en cada servidor se reducen (fusionan).
La historia del análisis de datos
La estadística es la rama de la ciencia que se ocupa de la recopilación y el análisis de datos. El término estadística originalmente se refería a la recopilación y análisis de datos sobre el Estado, como datos demográficos o datos económicos. Sin embargo, con el tiempo se amplió el tipo de datos a los que se aplicaba el análisis estadístico, de modo que hoy las estadísticas se utilizan para analizar todo tipo de datos. La forma más simple de análisis estadístico de datos es el resumen de un conjunto de datos en términos de estadísticas de resumen (descriptivas) (incluidas medidas de una tendencia central, como la media aritmética, o medidas de variación, como el rango). Sin embargo, en los siglos XVII y XVIII, el trabajo de personas como Gerolamo Cardano, Blaise Pascal, Jakob Bernoulli, Abraham de Moivre, Thomas Bayes y Richard Price sentó las bases de la teoría de la probabilidad, y a lo largo del siglo XIX muchos estadísticos comenzaron a utilizar distribuciones de probabilidad como parte de su kit de herramientas analíticas. Estos nuevos desarrollos en matemáticas permitieron a los estadísticos ir más allá de las estadísticas descriptivas