PiperLab, artesanos de data science

27 abril, 2015 Posted by sorayapa Publicado en Bigdata, Entrevistas Big Data

PiperLab, artesanos de data science

Alejandro Llorente, cofundador de PiperLab.

Alejandro Llorente tiene 27 años, es informático, matemático y co-fundador de PiperLab una nueva startup de data science orientada a solucionar problemas de negocio. Alejandro forma parte de una nueva oleada de jóvenes científicos que están marcando el camino a seguir en la era de los grandes volúmenes de información. En esta entrevista, además de hablarnos de su empresa, nos aporta su visión sobre big data y el futuro de Hadoop.

Alejandro estudió la doble licenciatura de Informática y Matemáticas en la Universidad Autónoma de Madrid, y antes de terminar la carrera ya estaba trabajando en el prestigioso Instituto de Ingeniería del Conocimiento.

“Los últimos cinco años he trabajado en el Instituto de Ingeniería del Conocimiento, donde también estaba Esteban Moro (mi director de tesis). En noviembre de 2014 surgió la oportunidad de crear PiperLab con un enfoque orientado a resolver, con análisis de datos, problemas de negocio. En enero de este año fundé la empresa junto a varios socios y ya estamos trabajando con reconocidas empresas. Tenemos clientes del sector industrial, de consultoras, agencias de marketing, de medios, etc. Estamos contentos con el inicio y con las previsiones”.

El foco de PiperLab está en las redes sociales, el eCommerce y la industria tradicional.

“Nuestro negocio se sustenta sobre tres pilares, uno es la predicción y el análisis de comportamiento en las redes sociales, por ejemplo analizar la difusión de la información o los patrones de comportamiento en relación con el paro. El segundo tiene ver con el eCommerce donde hay un montón de problemas de logística, almacenaje, fraude o de devoluciones. Si una empresa puede prevenir estos problemas se puede ahorrar un montón de tiempo y dinero, por lo que estamos trabajando en modelo que permitan anticipar, por ejemplo, el número de devoluciones que se van a producir. Y el último foco es la industria tradicional, las fábricas. Imagina que eres una empresa que vende carretillas y has instalado, en cada una, un sensor de movimiento y otro de golpes. Esos sensores te van a ayudar a predecir cuándo una carretilla se va a estropear. Queremos adelantarnos, y en base a los datos de los sensores establecer mantenimientos preventivos”.

Según Alejandro, hay mucha artesanía en la ciencia de los datos. Hay que saber qué variables se calculan, qué patrones se extraen y cuál es el mejor modelo.

“PiperLab no tiene plataforma. Utilizamos diferentes tecnologías, desde la parte más baja como almacenamiento distribuido no estructurado hasta las capas de integración de datos. Es decir recopilamos datos desde diferentes fuentes, los normalizamos, los integramos y luego usamos herramientas estadísticas y matemáticas para sacar análisis y ofrecer acciones correctoras al cliente. Me gusta la definición de artesanos de datos porque muchas veces, aunque la empresa tenga definido su problema de negocio e intuya que en los datos esta la solución o parte de ella, hay mucho arte en saber qué variables acabas calculando en base a esos datos, qué patrones acabas extrayendo y cuál es el mejor modelo posible para el problema que estás buscando”.

¿Cómo defines big data?

“Big data permite sacar inteligencia a los grandes volúmenes de datos. Al final es un compendio de tecnologías que principalmente están relacionadas con el almacenamiento porque algunas de las técnicas estadísticas y matemáticas, que hay detrás del análisis de datos, tienen más de cincuenta años. Se ha comenzado a llamar big data desde el momento que ha habido un montón de datos externos a las empresas, datos que no viene de tu lógica de negocio pero que están accesibles y pueden mejorar los procesos. Esa es la mayor diferencia que veo respecto al pasado y lo que sería lo nuevo de big data. La parte analítica, de algoritmos y de sacar valor, se lleva haciendo desde hace muchísimo tiempo”.

Alejandro Llorente, cofundador de PiperLab.

¿Se puede extraer inteligencia sin necesidad de disponer de grandes volúmenes de datos?

“El año pasado hicimos una investigación en Twitter para estimar el paro en las diferentes comunidades de España. Usamos 170 millones de tuits pero no nos hizo falta establecer una arquitectura big data, con herramientas tradicionales y un servidor medianamente potente pudimos hacer todo el trabajo. Una cosa es el volumen, la velocidad y todo esto y otra cosa los requerimientos de la aplicación final o resultado. Si necesitas hacer evaluaciones de datos de forma muy rápida seguramente necesites una arquitectura distribuida (big data). Para hacer un análisis off line o un modelo que se recalcule una vez cada dos semanas no te hace falta esa arquitectura. Cuando te pasas de un volumen las tecnologías tradicionales no valen, y es cuando las tecnologías big data te permiten sacar valor a grandísimos volúmenes. Hay tecnologías como Kafka, Storm, Spark Streaming, etc. que son perfectas para tratar datos en tiempo real. Ese es un problema tecnológico y luego cómo lo visualices es otro».

Un científico de datos ¿Sabe de tecnología?

“Aunque hay distintos perfiles relacionados con el big data, como el data scientist, arquitecto de datos o ingeniero de datos (que no es lo mismo), en muchas empresas todos estos perfiles los asume una sola persona. Por tanto el científico de datos generalmente está formado en todo, desde el almacenamiento hasta el análisis”.

Y por último ¿Hadoop tiene recorrido?

“Están surgiendo diferentes versiones de Hadoop, sobre todo para hacerlo más ágil en el sentido del streaming. Inicialmente estaba orientado, sobre todo, a procesamiento en Batch, es decir tengo un montón de datos que he ido guardando, ejecuto un proceso sobre ellos con Map Reduce y tengo los resultados. Hadoop 2.0 con Yarn mejora el sistema para poder hacer cosas en streaming y darle mayor flexibilidad. Dentro del ecosistema Hadoop, otras tecnologías como Spark o Storm están siendo desarrolladas para operar de forma distribuida con datos en streaming. Aunque ambas pueden operar sin Hadoop. Son tecnologías absolutamente complementarias”.

SorayaPaniagua Ⓢ

Un blog de tecnología desde 2009

Hemeroteca

Política de Cookies

Soy ….

Mi Time Line en Twitter

Posts más populares

PiperLab, artesanos de data science

Contestar

Deja un comentario Cancelar respuesta