Spark es un clúster de propósito general, con un framework de procesamiento unificado, que proporciona APIs de alto nivel en Java, Scala y Python y un motor optimizado que soporta la ejecución de gráficos.
Spark es actualmente una de las tecnologías más potentes para el tratamiento de Big Data y será sin duda uno de los referentes en lo que a este tipo de software se refiere.
Permite realizar trabajos paralelizados totalmente en memoria, lo cual reduce mucho los tiempos de procesamiento, máxime si se trata de procesos iterativos como los que se usan en el Machine Learning.