Spark, el framework de moda

2 min lectura
Desarrollo / 11 febrero 2016
Spark, el framework de moda
Spark, el framework de moda

BBVA API Market

En el Centro de Innovación BBVA de la Plaza Santa Bárbara de Madrid, Jorge López-MallaBig Data Architect en Stratio, explicó porqué se lleva tiempo oyendo maravillas de Spark, al que no pudo acceder hasta que empezó a trabajar en su empresa actual. Stratio busca desarrolladores, y así abrían la ponencia sus representantes de Recursos Humanos.

La jornada, que prometía respuestas a dudas clave para el desarrollo en el framework de Apache -cómo mezclar procesos de SparkSQL con otros lanzados desde el Spark Core o la aplicación de algoritmos de MILib a lógicas en tiempo real- empezó como una clase de historia reciente.

Y es que desde que el concepto de Big Data naciera en 2003, en un paper de Google sobre procesamiento de ficheros distribuidos, hubo que esperar a 2006 para que el equipo de Yahoo! lanzara Hadoop que acabó constituyendo la base sobre la que las operaciones con Big Data tomarían cuerpo en unos inicios.

El problema, proseguiría López-Malla, es que Hadoop nació como respuesta a un concepto de problemática distinto al que pueda tener hoy un desarrollador que trabaja con procesamiento de ficheros distribuidos. La tecnología ha cambiado en 10 años, pero también el mercado y la demanda del software.

Respondiendo a la problemática actual nacen Flink (también de código abierto) y Spark, siendo para López-Malla el último “ya no el futuro, sino el presente de Big Data”. Lo rompedor de Spark hunde sus raíces en la velocidad de procesamiento. Es, por lo tanto, “una evolución de Hadoop y su paradigma” pero con la ventaja de tener un rendimiento de 10 a 100 veces superior a cualquier plataforma de computación distribuida.

Todo se basa en RDDs, o “colecciones de colecciones distribuidas”, enfocadas al procesamiento en particiones. Estas particiones, independientes entre sí, permiten que el workflow continúe de forma ininterrumpida sin tener en cuenta que ocurre en las demás.

Si el core de Hadoop mejoraba, los módulos no se veían beneficiados por esa mejoría. Spark cambia esto y da una ventaja radical al programador para avanzar en sus cometidos, y es que Spark tiene una única API para todo.

Tres de los módulos más populares de Spark ocuparon la tarde en el Centro de Innovación BBVA. Spark SQL (para la consulta de datos estructurados con lenguaje SQL o una API)Spark Streaming (para gestionar datos en tiempo real en vez de por lotes) y MILib, para dotar a Spark de funcionalidades relacionadas con el aprendizaje automático.

La ponencia íntegra de Jorge López-Malla, con ejemplos visuales y de funcionamiento, está disponible en el canal de Youtube del Centro de Innovación BBVA, desde donde se incrusta el vídeo que puedes ver más abajo.

Síguenos en @BBVAAPIMarket

También podría interesarte