Política de Cookies

Este blog utiliza cookies propias y de terceros para mejorar su experiencia de navegación. Si continúa navegando, consideramos que acepta su uso. Puede obtener más información en nuestra página de: Política de Cookies.

Soy ….

Soraya Cronista compulsiva. Periodista por vocación y de formación. Consultora NTIC por experiencia. Mi pasión es mi hija. Me gusta el café. Más sobre mí.

RSSTwitterFacebookLinkedinYoutubegoogleplus

Suscríbete al blog!

RSS

Sólo tienes que incluir tu dirección de email y pulsar ok. Recibirás los nuevos post en tu correo.

………. O vía Rss

Soraya Paniagua

Hemeroteca

Mis Favoritos en Twitter

1 noviembre, 2011 Posted by sorayapa Publicado en Bigdata, Qué es Big Data
6 comentarios

La Ciencia de los Datos (BD II)

Share on FacebookShare on Google+Tweet about this on TwitterShare on LinkedInEmail this to someone

What is Data Science? O´Reilly MediaYa sabemos qué son los datos, dónde están y su tremenda importancia en la construcción de sociedades inteligentes. Ahora podemos adentrarnos en la discusión conceptual en torno a qué es la  Ciencia de los Datos.

En diciembre  de 2010 Michael E. Driscoll abrió  una discusión en Quora en torno a esta cuestión What is data science? . Les aconsejo encarecidamente que lean todas las aportaciones ya que, en efecto, hay  confusión a la hora de establecer el “Qué”.

Driscoll  aporta su propia definición sobre la Ciencia de Datos:

“Es la ingeniería civil de los datos. Sus acólitos poseen un conocimiento práctico de herramientas y materiales, junto con una comprensión teórica de lo que es posible”.

Personalmente me ha gustado la aportación de Giuseppe Paleologo:

“En términos generales, Data Science es el conjunto de prácticas sobre almacenamiento, gestión y análisis de conjuntos de datos lo suficientemente grandes que requieren de computación distribuida y los recursos de almacenamiento. En la actualidad la mayoría de las fuentes de datos están en internet y relacionadas con las transacciones, pero no hay que ignorar las primeras aplicaciones de la física de alta energía, la meteorología, las simulaciones militares, así como futuras aplicaciones en ciencias”.

Recientemente O´Reilly ha publicado “Biga Data Now, Current perspectives from O´Reilly Media “ (eBook de descarga gratuita que les recomiendo. Link a la derecha, en pequeñito). Pues bien, el primer tema de este libro es la aproximación conceptual a la “Data Science” (y sus herramientas) a través de las consideraciones de Mike Loukides (que en  junio de 2010 publicó  What is Data Science? en O´Reilly Radar). La idea central de Loukides es que “el futuro pertenece a las empresas y personas que puedan transformar datos en productos”.

Ahora, según Mike Loukides , el problema no es encontrar datos sino saber qué hacer con ellos.

“La cuestión a la que se enfrenta toda empresa, hoy en día, es cómo usar los datos  de forma efectiva. No sólo los datos propios sino de múltiples fuentes, todos los datos que están  a disposición y son relevantes. Usar los datos de forma efectiva  requiere algo diferente de las tradicionales estadísticas. Lo que diferencia el Big Data de las estadísticas es que la Ciencia de Datos tiene un enfoque holístico. Estamos encontrando de forma incremental datos en la naturaleza, y la Ciencia de Datos  tiene que ver con la recopilación de información, su conversión a un  mensaje manejable que cuente una historia”.

Sin duda, el grupo O´Reilly es la institución que actualmente, y a nivel mundial, más está impulsando el conocimiento en torno a  Biga Data y Data Science. En febrero de 2011 organizó la Primera Conferencia  Strata, en Santa Clara, California. En septiembre hubo una nueva edición en Nueva York. Strata se ha convertido, ya,  en referencia obligada para las empresas y los profesionales que están liderando la revolución de los Datos.

Como paso previo a la organización de Strata ,  O´Reilly invitó a una unconference a un selecto grupo de investigadores, relacionados con el mundo de los datos, para determinar los diferentes temas y ponentes de la Conferencia . Entre ellos estaba  Drew Conway que nos ha dejado este estupendo post  The data science venn diagram.

En cualquier caso, tal y como apunta David Vallante,  el  concepto de Ciencia de Datos  ha estado presente durante décadas en el mundo de la computación, es ahora con la nueva realidad, en cuanto a la naturaleza y volumen de los datos, cuando se está generando  una revisión conceptual, en buena parte basada en la actividad de empresas que se dedican al negocio del Big Data.

Vallante, uno de los fundadores de Wikibon ha creado un fantástico recorrido visual en torno al concepto de Data Science y el papel del científico de datos. (Haga click en la imagen para ver el gráfico completo).

 

Científico de Datos. Infografía de David Vellante en Wikibon.

Según Vallante, la Ciencia de los Datos puede ser dividida en cuatro partes esenciales:

  • Mining Data: recopilación y formateado de la información.
  • Statistics: análisis de la información.
  • Interpret: representación o visualización de los datos en infografías, imágenes o gráficos.
  • Leverage: la implicaciones de los datos, aplicaciones, interacción, predicciones, etc.

Tras leer y leer, mi duda fundamental, en este punto, es llegar a entender si la Ciencia de Datos sólo focaliza en el big data de la red o engloba también  la Inteligencia Artificial o la Biomecatrónica  ( no sé si me explico…).

En la próxima entrega  hago  una revisión de las etapas de trabajo con los datos así como las herramientas que se utilizan. El post: El trabajo con los datos y las herramientas (BD III)

 

6 comentarios

  1. Erick dice:

    Si se precisa que la ciencia de los datos involucra una parte en la cual se realiza el análisis de los datos (muy distinta la información), entonces no solo se estaría hablando de técnicas o herramientas netamente estadísticas; sino, también de otras tales como las de la inteligencia artificial (el cual también tiene un enfoque estadístico). La biomecatrónica, por otro lado, no podría estar dentro de este concepto ya que su enfoque involucra a otras áreas (Incluso la inteligencia artificial).

  2. […] analizar resultados y tomar las decisiones adecuadas basadas en criterios más certeros. La ciencia de los datos se debe implantar en las organizaciones modernas, independientemente de su […]

  3. […] laboral habla por sí mismo y muestra que no existe un valor definido que apunte a un perfil de Ciéntifico bien formado y la escasez persistirá en el futuro inmediato, ¡pero por cuanto tiempo?, el […]

  4. […] laboral habla por sí mismo y muestra que no existe un valor definido que apunte a un perfil de Ciéntifico bien formado y la escasez persistirá en el futuro inmediato, ¡pero por cuanto tiempo?, el […]

Contestar

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *