DataPelago Spark Accelerator: Leistungsschub für moderne Cloud
Apache Spark bleibt eine dominierende Engine für die großangelegte Datenverarbeitung, doch seine Architektur, die entwickelt wurde, als Cloud-Infrastrukturen hauptsächlich auf CPUs basierten, steht in den heutigen vielfältigen Computerumgebungen vor Herausforderungen. Moderne Cloud-Plattformen integrieren zunehmend GPUs, FPGAs und andere spezialisierte Hardware. Viele Open-Source-Datensysteme haben sich jedoch nicht weiterentwickelt, um diese Fortschritte zu nutzen, was dazu führt, dass Organisationen höhere Computekosten tragen, ohne die erwarteten Leistungssteigerungen zu erzielen.
Um dieser Disparität entgegenzuwirken, hat DataPelago seinen neuen Spark Accelerator auf den Markt gebracht. Diese Lösung integriert die native Ausführung mit CPU-Vektorisierung und GPU-Unterstützung, basierend auf der Universal Data Processing Engine des Unternehmens. DataPelago zielt darauf ab, Organisationen zu ermöglichen, Analyse-, ETL- (Extract, Transform, Load) und GenAI- (Generative AI) Workloads über moderne Compute-Infrastrukturen hinweg auszuführen, ohne bestehenden Code oder Datenpipelines umschreiben zu müssen.
Der Spark Accelerator arbeitet innerhalb bestehender Spark-Cluster und erfordert keine Neukonfiguration. Er analysiert Workloads während der Ausführung dynamisch und wählt intelligent den optimalen Prozessor für jede Aufgabenkomponente aus – sei es eine CPU, GPU oder FPGA. DataPelago gibt an, dass dieser Ansatz Spark-Jobs um bis zu 10 Mal beschleunigen und gleichzeitig die Computekosten um bis zu 80 Prozent senken kann.
Rajan Goyal, Gründer und CEO von DataPelago, erläuterte den Accelerator in einem Exklusivinterview und beschrieb ihn als direkte Antwort auf die wachsende Kluft zwischen traditionellen Datensystemen und zeitgenössischer Infrastruktur. „Wenn Sie sich die Server in der Public Cloud heute ansehen, sind das keine reinen CPU-Server. Das sind alles CPUs plus etwas“, erklärte Goyal. „Aber viele der im letzten Jahrzehnt geschriebenen Daten-Stacks wurden für einzelne Softwareumgebungen gebaut, normalerweise Java- oder C+±basiert, und verwendeten nur CPUs.“
Der DataPelago Accelerator für Spark verbindet sich über Standard-Konfigurations-Hooks mit bestehenden Spark-Clustern und fungiert als ergänzende Komponente. Nach der Aktivierung analysiert er Abfragepläne, sobald sie generiert werden, und bestimmt genau, wo jeder Teil der Workload ausgeführt werden soll – auf einer CPU, GPU oder anderen Beschleunigern.
Diese Entscheidungen werden zur Laufzeit getroffen, basierend auf der verfügbaren Hardware und den spezifischen Merkmalen des Jobs. „Wir ersetzen Spark nicht. Wir erweitern es“, stellte Goyal klar. „Unser System fungiert als Sidecar. Es klinkt sich als Plugin in Spark-Cluster ein und optimiert, was unter der Haube passiert, ohne dass sich die Art und Weise ändert, wie Benutzer Code schreiben.“ Goyal betonte, dass diese Laufzeitflexibilität entscheidend ist, um Leistung zu liefern, ohne neue Komplexitäten für Benutzer einzuführen. „Es gibt keine Patentlösung“, erklärte er. „Alle haben unterschiedliche Leistungspunkte oder Leistung pro Dollar-Punkte. In unserer Workload gibt es verschiedene Merkmale, die Sie benötigen.“ Durch die Anpassung an die in jeder Umgebung vorhandene Hardware kann das System die moderne Infrastruktur effektiver nutzen, ohne Benutzer zu zwingen, ihre Pipelines neu zu gestalten.
Diese Anpassungsfähigkeit hat bereits für frühe Anwender erhebliche Vorteile gebracht. Ein Fortune 100-Unternehmen, das ETL-Pipelines im Petabyte-Maßstab verwaltet, meldete eine 3-4-fache Verbesserung der Job-Geschwindigkeit und eine Reduzierung der Datenverarbeitungskosten um bis zu 70 Prozent. Während die Ergebnisse je nach Workload variieren können, bestätigte Goyal die greifbare Natur dieser Einsparungen. „Hier ist die Kostenreduzierung. Die 100 Dollar werden entweder 60 oder 40 Dollar“, bemerkte er und hob den direkten finanziellen Vorteil für Unternehmen hervor.
Andere frühe Kunden haben ähnliche Gewinne erzielt. RevSure, ein prominentes E-Commerce-Unternehmen, implementierte den Accelerator in nur 48 Stunden und meldete messbare Verbesserungen in seiner ETL-Pipeline, die Hunderte von Terabyte Daten verarbeitet. ShareChat, eine der größten Social-Media-Plattformen Indiens mit über 350 Millionen Nutzern, erlebte nach der Implementierung des Accelerators in der Produktion eine Verdoppelung der Job-Geschwindigkeiten und eine 50-prozentige Senkung der Infrastrukturkosten.
Die adaptiven Fähigkeiten des Accelerators ziehen auch eine breitere Branchenaufmerksamkeit auf sich. Orri Erling, Mitbegründer des Velox-Projekts, sieht die Arbeit von DataPelago als natürliche Weiterentwicklung der Fortschritte, die von Open-Source-Systemen auf CPUs erzielt wurden. „Seit seiner Gründung hat sich Velox intensiv auf die Beschleunigung analytischer Workloads konzentriert. Bisher war diese Beschleunigung auf CPUs ausgerichtet, und wir haben den Einfluss gesehen, den geringere Latenz und verbesserte Ressourcennutzung auf die Datenmanagement-Bemühungen von Unternehmen haben“, kommentierte Erling. „DataPelagos Accelerator für Spark, der Nucleus für GPU-Architekturen nutzt, eröffnet das Potenzial für noch größere Geschwindigkeits- und Effizienzsteigerungen bei den anspruchsvollsten Datenverarbeitungsaufgaben von Organisationen.“
Der neue Spark Accelerator baut direkt auf der grundlegenden Technologie auf, die DataPelago Ende 2024 mit seiner Universal Data Processing Engine einführte, als es aus dem Stealth-Modus kam. Damals beschrieb das Unternehmen eine Virtualisierungsschicht, die darauf ausgelegt ist, Daten-Workloads an den am besten geeigneten Prozessor zu leiten, ohne Code-Modifikationen zu erfordern. Diese ursprüngliche Vision untermauert nun die Leistungsverbesserungen, die von Kunden gemeldet werden, die den Spark Accelerator verwenden.
Der Accelerator ist derzeit sowohl auf Amazon Web Services (AWS) als auch auf Google Cloud Platform (GCP) verfügbar und kann auch über den Google Cloud Marketplace abgerufen werden. DataPelago gibt an, dass die Bereitstellung typischerweise Minuten und nicht Wochen dauert, wodurch die Notwendigkeit entfällt, Anwendungen neu zu schreiben, Datenkonnektoren auszutauschen oder Sicherheitsrichtlinien anzupassen. Er integriert sich nahtlos in die bestehenden Authentifizierungs- und Verschlüsselungsprotokolle von Spark und enthält integrierte Observability-Tools zur Echtzeit-Leistungsüberwachung. Diese Kombination aus Sichtbarkeit und Plug-and-Play-Integration erleichtert die Kundenakzeptanz, ohne laufende Operationen zu stören.
Obwohl sich Goyal zunächst auf Analyse und ETL konzentrierte, wies er auf eine wachsende Nachfrage nach dem Accelerator innerhalb von KI- und GenAI-Pipelines hin. „Der Rechen-Footprint für diese Modelle nimmt nur zu“, beobachtete er. „Unser Ziel ist es, Teams dabei zu helfen, diese Leistung erschwinglich freizuschalten, ohne ihre Infrastruktur neu zu erfinden.“
Um die nächste Wachstumsphase zu unterstützen, hat DataPelago kürzlich John „JG“ Chirapurath, einen ehemaligen SAP- und Microsoft-Manager, zu seinem Präsidenten ernannt. Chirapurath war zuvor Executive Vice President und Chief Marketing & Solutions Officer bei SAP sowie Vice President von Azure bei Microsoft. Seine Ernennung signalisiert DataPelagos strategischen Vorstoß, die Akzeptanz zu skalieren und Branchenpartnerschaften zu vertiefen.