DataPelago Spark Accelerator: Performance Décuplée sur le Cloud Moderne
Apache Spark reste un moteur dominant pour le traitement de données à grande échelle, pourtant son architecture, développée lorsque l’infrastructure cloud reposait principalement sur les CPU, fait face à des défis dans les environnements informatiques diversifiés d’aujourd’hui. Les plateformes cloud modernes intègrent de plus en plus des GPU, des FPGA et d’autres matériels spécialisés. Cependant, de nombreux systèmes de données open-source n’ont pas évolué pour tirer parti de ces avancées, ce qui conduit les organisations à supporter des coûts de calcul plus élevés sans atteindre les gains de performance escomptés.
Pour remédier à cette disparité, DataPelago a lancé son nouveau Spark Accelerator. Cette solution intègre l’exécution native avec la vectorisation CPU et le support GPU, construite sur le moteur universel de traitement de données de l’entreprise. DataPelago vise à permettre aux organisations d’exécuter des charges de travail d’analyse, d’ETL (Extract, Transform, Load) et de GenAI (Intelligence Artificielle Générative) sur des infrastructures de calcul modernes sans avoir besoin de réécrire le code ou les pipelines de données existants.
Le Spark Accelerator fonctionne au sein des clusters Spark existants, ne nécessitant aucune reconfiguration. Il analyse dynamiquement les charges de travail pendant l’exécution, sélectionnant intelligemment le processeur optimal pour chaque composant de tâche – qu’il s’agisse d’un CPU, d’un GPU ou d’un FPGA. DataPelago affirme que cette approche peut accélérer les tâches Spark jusqu’à 10 fois tout en réduisant les coûts de calcul jusqu’à 80 pour cent.
Rajan Goyal, fondateur et PDG de DataPelago, a détaillé l’Accélérateur dans une interview exclusive, le décrivant comme une réponse directe au fossé croissant entre les systèmes de données traditionnels et l’infrastructure contemporaine. « Si vous regardez les serveurs dans le cloud public aujourd’hui, ce ne sont pas des serveurs uniquement CPU. Ce sont tous des CPU plus quelque chose », a expliqué Goyal. « Mais de nombreuses piles de données écrites la décennie dernière ont été construites pour des environnements logiciels uniques, généralement basés sur Java ou C++, et n’utilisant que le CPU. »
L’Accélérateur Spark de DataPelago se connecte aux clusters Spark existants en utilisant des hooks de configuration standard et fonctionne comme un composant complémentaire. Une fois activé, il analyse les plans de requête au fur et à mesure qu’ils sont générés, déterminant précisément où chaque partie de la charge de travail doit s’exécuter – sur un CPU, un GPU ou d’autres accélérateurs.
Ces décisions sont prises en temps réel, en fonction du matériel disponible et des caractéristiques spécifiques du travail. « Nous ne remplaçons pas Spark. Nous l’étendons », a précisé Goyal. « Notre système agit comme un ‘sidecar’. Il se connecte aux clusters Spark en tant que plugin et optimise ce qui se passe en coulisses sans aucune modification de la façon dont les utilisateurs écrivent le code. » Goyal a souligné que cette flexibilité d’exécution est cruciale pour offrir des performances sans introduire de nouvelles complexités pour les utilisateurs. « Il n’y a pas de solution miracle », a-t-il déclaré. « Toutes ont des points de performance différents ou des points de performance par dollar. Dans notre charge de travail, il y a différentes caractéristiques dont vous avez besoin. » En s’adaptant au matériel présent dans chaque environnement, le système peut utiliser plus efficacement l’infrastructure moderne sans forcer les utilisateurs à réarchitecturer leurs pipelines.
Cette adaptabilité a déjà produit des avantages significatifs pour les premiers utilisateurs. Une entreprise du Fortune 100 gérant des pipelines ETL à l’échelle du pétaoctet a signalé une amélioration de 3 à 4 fois de la vitesse des tâches et une réduction des coûts de traitement des données allant jusqu’à 70 pour cent. Bien que les résultats puissent varier selon la charge de travail, Goyal a affirmé la nature tangible de ces économies. « Voici la réduction des coûts. Ces 100 dollars deviendront soit 60, soit 40 dollars », a-t-il noté, soulignant l’avantage financier direct pour les entreprises.
D’autres premiers clients ont observé des gains similaires. RevSure, une entreprise de commerce électronique de premier plan, a déployé l’Accélérateur en seulement 48 heures et a signalé des améliorations mesurables dans son pipeline ETL, qui traite des centaines de téraoctets de données. ShareChat, l’une des plus grandes plateformes de médias sociaux d’Inde avec plus de 350 millions d’utilisateurs, a vu la vitesse de ses tâches doubler et ses coûts d’infrastructure diminuer de 50 pour cent après avoir implémenté l’Accélérateur en production.
Les capacités adaptatives de l’Accélérateur attirent également une attention plus large de l’industrie. Orri Erling, co-fondateur du projet Velox, considère le travail de DataPelago comme une progression naturelle des avancées réalisées par les systèmes open-source sur les CPU. « Depuis sa création, Velox s’est profondément concentré sur l’accélération des charges de travail analytiques. Jusqu’à présent, cette accélération était orientée vers les CPU, et nous avons constaté l’impact qu’une latence plus faible et une meilleure utilisation des ressources ont sur les efforts de gestion des données des entreprises », a commenté Erling. « L’Accélérateur Spark de DataPelago, tirant parti de Nucleus pour les architectures GPU, introduit le potentiel de gains de vitesse et d’efficacité encore plus importants pour les tâches de traitement de données les plus exigeantes des organisations. »
Le nouveau Spark Accelerator s’appuie directement sur la technologie fondamentale que DataPelago a introduite lorsqu’elle est sortie de la clandestinité fin 2024 avec son moteur universel de traitement de données. À l’époque, l’entreprise décrivait une couche de virtualisation conçue pour acheminer les charges de travail de données vers le processeur le plus approprié sans nécessiter de modifications de code. Cette vision initiale sous-tend désormais les améliorations de performance rapportées par les clients utilisant le Spark Accelerator.
L’Accélérateur est actuellement disponible sur Amazon Web Services (AWS) et Google Cloud Platform (GCP), et peut également être accessible via le Google Cloud Marketplace. DataPelago déclare que le déploiement prend généralement des minutes, pas des semaines, éliminant le besoin de réécrire des applications, d’échanger des connecteurs de données ou d’ajuster les politiques de sécurité. Il s’intègre parfaitement aux protocoles d’authentification et de chiffrement existants de Spark et comprend des outils d’observabilité intégrés pour la surveillance des performances en temps réel. Cette combinaison de visibilité et d’intégration plug-and-play facilite l’adoption par le client sans perturber les opérations en cours.
Bien qu’initialement axé sur l’analyse et l’ETL, Goyal a indiqué une demande croissante pour l’Accélérateur au sein des pipelines d’IA et de GenAI. « L’empreinte de calcul pour ces modèles ne fait qu’augmenter », a-t-il observé. « Notre objectif est d’aider les équipes à débloquer cette performance à un coût abordable sans réinventer leur infrastructure. »
Dans un mouvement visant à soutenir sa prochaine phase de croissance, DataPelago a récemment nommé John « JG » Chirapurath, un ancien dirigeant de SAP et Microsoft, en tant que président. Chirapurath a précédemment occupé le poste de vice-président exécutif et directeur du marketing et des solutions chez SAP, et de vice-président d’Azure chez Microsoft. Sa nomination signale la volonté stratégique de DataPelago d’intensifier l’adoption et d’approfondir les partenariats industriels.