Juantomas: Spark es una de las tecnologías más bellas de los últimos 30 años

2 agosto, 2015 Posted by sorayapa Publicado en Bigdata, Entrevistas Big Data

Juantomas: Spark es una de las tecnologías más bellas de los últimos 30 años

Juantomas García

Sin lugar a dudas, Juantomas García es una de los profesionales más reconocidos en los ambientes Big Data de Madrid. Es el CDO (Chef Digital Office) y responsable Big Data de ASPGems, la empresa de desarrollo de software fundada por Agustín Cuenca en 2006. En esta entrevista Juantomas nos habla de su empresa, del mercado Big Data y de su pasión por Spark, la segunda derivada de Hadoop.

«Estudié informática en la UPM. Empecé muy pronto con los primeros entornos Unix en los 80 y como no podía ser de otra manera, termine enamorándome del mundo de software libre. Durante unos cuantos años fui presidente de la asociación de usuarios de Linux en España, Hispalinux. Durante estos años he estado involucrado en muchos proyectos, y casi todos han sido muy especiales».

Merluza, tecnología y la liga del Big Data.

«Conocía a Agustín Cuenca desde hace muchos años. Ambos participamos en un grupo que nos reunimos de vez en cuando a comer Merluza y hablar de tecnología. En una de esas comidas me convenció, no tuvo que hacer demasiado esfuerzo, de que el mundo del Big Data iba a ser la siguiente revolución y ASPGems debía estar en esa liga. Me convenció con pasión y amor a partes iguales. Me vendió su idea del Big Data y por supuesto deje todo lo que estaba haciendo para lanzar el proyecto, eso fue en 2014».

En Big Data ¿Qué hacéis y qué ofrecéis?

«Para contar lo que hacemos nos gusta usar una definición de Big Data que creo es de Doug Cutting: «Si cualquiera de las 5 V’s es un problema y no forma parte de la solución, entonces es Big Data. Parafraseando la frase anterior: Si tienes un problema con alguna de las Vs, nosotros te ayudamos a resolverlo. En ASPgems llevamos haciendo transformación digital con metodología Agile desde hace 9 años. Desde que se creó la división de Big Data no ha dejado de aumentar la demanda de proyectos relacionados con esta tecnología».

¿Qué clientes tiene ASPGem?

«Tenemos clientes de todos los tamaños, desde operadoras de telecomunicaciones, grandes aseguradoras a pequeñas empresas. Algunos tienen volúmenes de datos de miles de millones de eventos diarios y en los casos de menor volumen los servicios que ofrecemos son más «small data» pero que necesitan definir una gobernanza de datos, analíticas ágiles, Machine Learning para obtener más valor o simplificar la arquitectura de la información para poder responder más ágilmente a las peticiones de negocio».

¿Con qué equipo contáis en el área Big Data?

«Ahora mismo tenemos un equipo de 14 personas y crecerá de aquí a final de año. Los perfiles son los habituales en este mercado: científicos de datos, responsables de arquitectura, programadores, jefes de proyecto, etc. El equipo está muy especializado en arquitectura kappa, Scala, Kafka, Apache Spark y/o Machine Learning».

¿Por qué patrocináis Databeers?

«Hay muchas razones y todas de peso. Databeers es de los mejores eventos sobre Big Data del mundo. El equipo que lo organiza es increíble. La labor que están haciendo de promoción y divulgación del Big Data es algo que teníamos y debíamos apoyar desde ASPgems».

¿Cómo dibujarías la industria Big Data actual?

«Mi sensación es que se ha avanzado más en los últimos dos años que en los diez anteriores y que la adopción, por parte de los clientes, no está yendo a la misma velocidad. Entiendo que el ritmo de adopción se va a acelerar y que la industria del Big Data va tener que crecer y mucho para poder atender la demanda».

¿Y tu opinión sobre el mercado en España?

«No hay demasiado retraso en la adopción del Big Data respecto a los países que lideran los casos de uso. Pero incluso en los países más adelantados el grueso de las implemetaciones están en las fases iniciales. De forma general, el mensaje que recibimos de nuestros clientes es: tenemos que hacer Big Data porque somos conscientes de los beneficios pero vamos a empezar consolidando información, con pruebas de concepto y ampliando su utilización progresivamente. La mayoría de nuestros clientes están en producción y con tiempo muy cortos de ejecución».

¿Cómo contarías brevemente qué es Hadoop?

«La primera alternativa real, potente y libre para poder gestionar proyectos de Big Data al alcance de prácticamente cualquiera. Hadoop ha sido una de las piezas claves para la universalización del Big Data, si no la más importante.»

¿Cómo contarías brevemente qué es Apache Spark?

«Spark es la segunda derivada de Hadoop. Coge todas las cosas buenas de Hadoop, en vez de pensar en discos duros piensa en memoria. Usa un lenguaje funcional y orientado a objetos como Scala y te olvidas de las constricciones mentales y físicas de java. Es una de las ejecuciones tecnológicas más bellas y brillantes que he visto en los últimos 30 años».

Eres un apasionado de Spark…

«Cuando hablo con un cliente necesito entender qué necesita, y cuando lo entiendo necesito empezar a pensar en cómo voy a solucionarlo. Hasta la llegada de Apache Spark este proceso mental era muy doloroso. A partir de Spark lo que hacemos es dedicar prácticamente todo el tiempo a pensar en el problema y no en las herramientas. Estamos enfocados en lo que es realmente es importante. Después conocer Apache Spark y Scala no he vuelto a programar en Java. Y gracias a ello he descubierto que con Java más Big Data me aleja de los problemas. Es tan brillante y es tanta la ventaja competitiva que nos da, que básicamente estamos agradecidos».

¿Cómo sería, para ti, el despliegue tecnológico ideal de Big Data en una empresa cuya prioridad es el tiempo real, en otra que busque oportunidades de negocio y en otra que quiera conseguir valor de cruce de datos de miles de fuentes?

«Ufff, cada empresa es distinta, las necesidades son diferentes. Pero sí te voy a dar algunas pistas: al final todo se va a tener a procesar en tiempo real por que el coste es parecido y los beneficios son evidentes. Es súper importante pensar en simplificar los flujos de datos como hizo LinkedIn, Twitter o Facebook cuando reorganizaron su arquitectura de datos. Esto es la arquitectura kappa y es la clave de nuestros proyectos».

SorayaPaniagua Ⓢ

Un blog de tecnología desde 2009

Hemeroteca

Política de Cookies

Soy ….

Mi Time Line en Twitter

Posts más populares

Juantomas: Spark es una de las tecnologías más bellas de los últimos 30 años

Contestar

Deja un comentario Cancelar respuesta