Ya sabemos qué son los datos, dónde están y su tremenda importancia en la construcción de sociedades inteligentes. Ahora podemos adentrarnos en la discusión conceptual en torno a qué es la Ciencia de los Datos.
En diciembre de 2010 Michael E. Driscoll abrió una discusión en Quora en torno a esta cuestión What is data science? . Les aconsejo encarecidamente que lean todas las aportaciones ya que, en efecto, hay confusión a la hora de establecer el «Qué».
Driscoll aporta su propia definición sobre la Ciencia de Datos:
“Es la ingeniería civil de los datos. Sus acólitos poseen un conocimiento práctico de herramientas y materiales, junto con una comprensión teórica de lo que es posible”.
Personalmente me ha gustado la aportación de Giuseppe Paleologo:
“En términos generales, Data Science es el conjunto de prácticas sobre almacenamiento, gestión y análisis de conjuntos de datos lo suficientemente grandes que requieren de computación distribuida y los recursos de almacenamiento. En la actualidad la mayoría de las fuentes de datos están en internet y relacionadas con las transacciones, pero no hay que ignorar las primeras aplicaciones de la física de alta energía, la meteorología, las simulaciones militares, así como futuras aplicaciones en ciencias».
Recientemente O´Reilly ha publicado “Biga Data Now, Current perspectives from O´Reilly Media “ (eBook de descarga gratuita que les recomiendo. Link a la derecha, en pequeñito). Pues bien, el primer tema de este libro es la aproximación conceptual a la “Data Science” (y sus herramientas) a través de las consideraciones de Mike Loukides (que en junio de 2010 publicó What is Data Science? en O´Reilly Radar). La idea central de Loukides es que “el futuro pertenece a las empresas y personas que puedan transformar datos en productos”.
Ahora, según Mike Loukides , el problema no es encontrar datos sino saber qué hacer con ellos.
“La cuestión a la que se enfrenta toda empresa, hoy en día, es cómo usar los datos de forma efectiva. No sólo los datos propios sino de múltiples fuentes, todos los datos que están a disposición y son relevantes. Usar los datos de forma efectiva requiere algo diferente de las tradicionales estadísticas. Lo que diferencia el Big Data de las estadísticas es que la Ciencia de Datos tiene un enfoque holístico. Estamos encontrando de forma incremental datos en la naturaleza, y la Ciencia de Datos tiene que ver con la recopilación de información, su conversión a un mensaje manejable que cuente una historia”.
Sin duda, el grupo O´Reilly es la institución que actualmente, y a nivel mundial, más está impulsando el conocimiento en torno a Biga Data y Data Science. En febrero de 2011 organizó la Primera Conferencia Strata, en Santa Clara, California. En septiembre hubo una nueva edición en Nueva York. Strata se ha convertido, ya, en referencia obligada para las empresas y los profesionales que están liderando la revolución de los Datos.
Como paso previo a la organización de Strata , O´Reilly invitó a una unconference a un selecto grupo de investigadores, relacionados con el mundo de los datos, para determinar los diferentes temas y ponentes de la Conferencia . Entre ellos estaba Drew Conway que nos ha dejado este estupendo post The data science venn diagram.
En cualquier caso, tal y como apunta David Vallante, el concepto de Ciencia de Datos ha estado presente durante décadas en el mundo de la computación, es ahora con la nueva realidad, en cuanto a la naturaleza y volumen de los datos, cuando se está generando una revisión conceptual, en buena parte basada en la actividad de empresas que se dedican al negocio del Big Data.
Vallante, uno de los fundadores de Wikibon ha creado un fantástico recorrido visual en torno al concepto de Data Science y el papel del científico de datos. (Haga click en la imagen para ver el gráfico completo).
Según Vallante, la Ciencia de los Datos puede ser dividida en cuatro partes esenciales:
Tras leer y leer, mi duda fundamental, en este punto, es llegar a entender si la Ciencia de Datos sólo focaliza en el big data de la red o engloba también la Inteligencia Artificial o la Biomecatrónica ( no sé si me explico…).
En la próxima entrega hago una revisión de las etapas de trabajo con los datos así como las herramientas que se utilizan. El post: El trabajo con los datos y las herramientas (BD III)
[…] La Ciencia de los Datos (BDII) […]
Si se precisa que la ciencia de los datos involucra una parte en la cual se realiza el análisis de los datos (muy distinta la información), entonces no solo se estaría hablando de técnicas o herramientas netamente estadísticas; sino, también de otras tales como las de la inteligencia artificial (el cual también tiene un enfoque estadístico). La biomecatrónica, por otro lado, no podría estar dentro de este concepto ya que su enfoque involucra a otras áreas (Incluso la inteligencia artificial).
Hola Erick
Gracias por la aclaración!!!! 😉
[…] analizar resultados y tomar las decisiones adecuadas basadas en criterios más certeros. La ciencia de los datos se debe implantar en las organizaciones modernas, independientemente de su […]
[…] laboral habla por sí mismo y muestra que no existe un valor definido que apunte a un perfil de Ciéntifico bien formado y la escasez persistirá en el futuro inmediato, ¡pero por cuanto tiempo?, el […]
[…] laboral habla por sí mismo y muestra que no existe un valor definido que apunte a un perfil de Ciéntifico bien formado y la escasez persistirá en el futuro inmediato, ¡pero por cuanto tiempo?, el […]
[…] analizar resultados y tomar las decisiones adecuadas basadas en criterios más certeros. La ciencia de los datos se debe implantar en las organizaciones modernas, independientemente de su […]