DataPelago Spark Accelerator: Rendimiento Extremo en la Nube Moderna
Apache Spark sigue siendo un motor dominante para el procesamiento de datos a gran escala; sin embargo, su arquitectura, desarrollada cuando la infraestructura de la nube se basaba principalmente en CPUs, enfrenta desafíos en los diversos entornos informáticos actuales. Las plataformas de nube modernas incorporan cada vez más GPUs, FPGAs y otro hardware especializado. Muchos sistemas de datos de código abierto, sin embargo, no han evolucionado para aprovechar estos avances, lo que lleva a las organizaciones a incurrir en mayores costos de computación sin lograr las ganancias de rendimiento esperadas.
Para abordar esta disparidad, DataPelago ha lanzado su nuevo Spark Accelerator. Esta solución integra la ejecución nativa con vectorización de CPU y soporte de GPU, construida sobre el Universal Data Processing Engine de la compañía. DataPelago tiene como objetivo permitir a las organizaciones ejecutar cargas de trabajo de análisis, ETL (Extract, Transform, Load) y GenAI (Inteligencia Artificial Generativa) en infraestructuras de computación modernas sin necesidad de reescribir código o pipelines de datos existentes.
El Spark Accelerator opera dentro de los clusters Spark existentes, sin requerir reconfiguración. Analiza dinámicamente las cargas de trabajo durante la ejecución, seleccionando inteligentemente el procesador óptimo para cada componente de la tarea, ya sea una CPU, GPU o FPGA. DataPelago afirma que este enfoque puede acelerar los trabajos de Spark hasta 10 veces, al tiempo que reduce los costos de computación hasta en un 80 por ciento.
Rajan Goyal, Fundador y CEO de DataPelago, elaboró sobre el Accelerator en una entrevista exclusiva, describiéndolo como una respuesta directa a la creciente brecha entre los sistemas de datos tradicionales y la infraestructura contemporánea. “Si miras los servidores en la nube pública hoy, no son servidores solo de CPU. Todos son CPU más algo”, explicó Goyal. “Pero muchas de las pilas de datos escritas la década pasada fueron construidas para entornos de software únicos, generalmente basados en Java o C++, y solo usando CPU.”
El DataPelago Accelerator para Spark se conecta a los clusters Spark existentes utilizando ganchos de configuración estándar y funciona como un componente complementario. Una vez activado, analiza los planes de consulta a medida que se generan, determinando con precisión dónde debe ejecutarse cada parte de la carga de trabajo: en una CPU, GPU u otros aceleradores.
Estas decisiones se toman en tiempo de ejecución, basándose en el hardware disponible y las características específicas del trabajo. “No estamos reemplazando Spark. Lo extendemos”, aclaró Goyal. “Nuestro sistema actúa como un ‘sidecar’. Se conecta a los clusters Spark como un plugin y optimiza lo que sucede bajo el capó sin ningún cambio en la forma en que los usuarios escriben código.” Goyal enfatizó que esta flexibilidad en tiempo de ejecución es crucial para ofrecer rendimiento sin introducir nuevas complejidades para los usuarios. “No hay una solución mágica”, afirmó. “Todos tienen diferentes puntos de rendimiento o puntos de rendimiento por dólar. En nuestra carga de trabajo, hay diferentes características que necesitas.” Al adaptarse al hardware presente en cada entorno, el sistema puede utilizar más eficazmente la infraestructura moderna sin obligar a los usuarios a reestructurar sus pipelines.
Esta adaptabilidad ya ha generado beneficios significativos para los primeros adoptantes. Una empresa Fortune 100 que gestiona pipelines ETL a escala de petabytes informó una mejora de 3 a 4 veces en la velocidad de los trabajos y una reducción de los costos de procesamiento de datos de hasta el 70 por ciento. Si bien los resultados pueden variar según la carga de trabajo, Goyal afirmó la naturaleza tangible de estos ahorros. “Aquí está la reducción de costos. Esos $100 se convertirán en $60 o $40”, señaló, destacando la ventaja financiera directa para las empresas.
Otros clientes tempranos han observado ganancias similares. RevSure, una destacada empresa de comercio electrónico, implementó el Accelerator en solo 48 horas e informó mejoras medibles en su pipeline ETL, que procesa cientos de terabytes de datos. ShareChat, una de las plataformas de redes sociales más grandes de la India con más de 350 millones de usuarios, experimentó una duplicación de la velocidad de los trabajos y una disminución del 50 por ciento en los costos de infraestructura después de implementar el Accelerator en producción.
Las capacidades adaptativas del Accelerator también están atrayendo una atención más amplia de la industria. Orri Erling, cofundador del proyecto Velox, ve el trabajo de DataPelago como una progresión natural de los avances realizados por los sistemas de código abierto en CPUs. “Desde su inicio, Velox se ha centrado profundamente en acelerar las cargas de trabajo analíticas. Hasta la fecha, esta aceleración se ha orientado a las CPUs, y hemos visto el impacto que la menor latencia y la mejora en la utilización de recursos tienen en los esfuerzos de gestión de datos de las empresas”, comentó Erling. “El Accelerator para Spark de DataPelago, que aprovecha Nucleus para arquitecturas de GPU, introduce el potencial de ganancias aún mayores en velocidad y eficiencia para las tareas de procesamiento de datos más exigentes de las organizaciones.”
El nuevo Spark Accelerator se basa directamente en la tecnología fundamental que DataPelago introdujo cuando salió del modo sigiloso a finales de 2024 con su Universal Data Processing Engine. En ese momento, la compañía describió una capa de virtualización diseñada para enrutar las cargas de trabajo de datos al procesador más adecuado sin requerir modificaciones de código. Esta visión inicial ahora sustenta las mejoras de rendimiento reportadas por los clientes que utilizan el Spark Accelerator.
El Accelerator está actualmente disponible en Amazon Web Services (AWS) y Google Cloud Platform (GCP), y también se puede acceder a través de Google Cloud Marketplace. DataPelago afirma que la implementación suele tardar minutos, no semanas, eliminando la necesidad de reescribir aplicaciones, intercambiar conectores de datos o ajustar políticas de seguridad. Se integra sin problemas con los protocolos de autenticación y cifrado existentes de Spark e incluye herramientas de observabilidad integradas para el monitoreo del rendimiento en tiempo real. Esta combinación de visibilidad e integración plug-and-play facilita la adopción por parte del cliente sin interrumpir las operaciones en curso.
Si bien inicialmente se centró en análisis y ETL, Goyal indicó una creciente demanda del Accelerator dentro de los pipelines de IA y GenAI. “La huella computacional para estos modelos solo está aumentando”, observó. “Nuestro objetivo es ayudar a los equipos a desbloquear ese rendimiento de manera asequible sin reinventar su infraestructura.”
En un movimiento para apoyar su próxima fase de crecimiento, DataPelago nombró recientemente a John “JG” Chirapurath, ex ejecutivo de SAP y Microsoft, como su presidente. Chirapurath se desempeñó anteriormente como Vicepresidente Ejecutivo y Director de Marketing y Soluciones en SAP, y como Vicepresidente de Azure en Microsoft. Su nombramiento señala el impulso estratégico de DataPelago para escalar la adopción y profundizar las asociaciones industriales.