DataPelagoのSpark Accelerator：モダンクラウドで性能を劇的に向上

Apache Sparkは、大規模データ処理の主要なエンジンであり続けていますが、クラウドインフラストラクチャが主にCPUに依存していた時代に開発されたそのアーキテクチャは、今日の多様なコンピューティング環境において課題に直面しています。最新のクラウドプラットフォームでは、GPU、FPGA、その他の特殊なハードウェアがますます組み込まれています。しかし、多くのオープンソースデータシステムはこれらの進歩を活用するために進化しておらず、組織は期待されるパフォーマンス向上を達成することなく、より高い計算コストを負担しています。

この格差に対処するため、DataPelagoは新しいSpark Acceleratorを発表しました。このソリューションは、同社のUniversal Data Processing Engineを基盤とし、CPUのベクトル化とGPUサポートによるネイティブ実行を統合しています。DataPelagoは、既存のコードやデータパイプラインを書き換えることなく、最新のコンピューティングインフラストラクチャ全体で分析、ETL（Extract, Transform, Load）、GenAI（Generative AI）ワークロードを実行できるようにすることを目指しています。

Spark Acceleratorは既存のSparkクラスター内で動作し、再構成は不要です。実行中にワークロードを動的に分析し、各タスクコンポーネントに最適なプロセッサ（CPU、GPU、またはFPGA）をインテリジェントに選択します。DataPelagoは、このアプローチによりSparkジョブを最大10倍高速化し、計算コストを最大80%削減できると述べています。

DataPelagoの創業者兼CEOであるRajan Goyalは、独占インタビューでこのAcceleratorについて詳しく説明し、従来のデータシステムと現代のインフラストラクチャ間の広がるギャップへの直接的な対応であると述べました。「今日のパブリッククラウドのサーバーを見ると、CPUのみのサーバーではありません。すべてがCPUと何かを組み合わせたものです」とGoyalは説明しました。「しかし、過去10年間に書かれた多くのデータスタックは、通常JavaベースまたはC++ベースの単一ソフトウェア環境向けに構築され、CPUのみを使用していました。」

DataPelagoのSpark Acceleratorは、標準の構成フックを使用して既存のSparkクラスターに接続し、補完的なコンポーネメントとして機能します。有効化されると、生成されたクエリプランを分析し、ワークロードの各部分がどこで実行されるべきか（CPU、GPU、またはその他のアクセラレータ上）を正確に決定します。

これらの決定は、利用可能なハードウェアとジョブの特定の特徴に基づいて、実行時に行われます。「私たちはSparkを置き換えるわけではありません。拡張するのです」とGoyalは明確にしました。「私たちのシステムはサイドカーのように機能します。プラグインとしてSparkクラスターに接続し、ユーザーがコードを記述する方法を変更することなく、内部で何が起こるかを最適化します。」Goyalは、この実行時の柔軟性が、ユーザーに新たな複雑さをもたらすことなくパフォーマンスを提供するために不可欠であると強調しました。「特効薬は一つではありません」と彼は述べました。「すべて異なるパフォーマンスポイント、またはドルあたりのパフォーマンスポイントを持っています。私たちのワークロードには、必要な異なる特性があります。」各環境に存在するハードウェアに適応することで、システムはユーザーにパイプラインの再構築を強制することなく、最新のインフラストラクチャをより効果的に活用できます。

この適応性により、早期導入者にはすでに大きなメリットがもたらされています。ペタバイト規模のETLパイプラインを管理するFortune 100企業は、ジョブ速度が3～4倍向上し、データ処理コストが最大70%削減されたと報告しています。ワークロードによって結果は異なる場合がありますが、Goyalはこれらの節約が具体的であると断言しました。「これがコスト削減です。100ドルが60ドルか40ドルになるのです」と彼は述べ、企業にとっての直接的な金銭的利点を強調しました。

他の初期顧客も同様の成果を上げています。著名なeコマース企業であるRevSureは、わずか48時間でAcceleratorを導入し、数百テラバイトのデータを処理するETLパイプライン全体で測定可能な改善を報告しました。インド最大のソーシャルメディアプラットフォームの一つで、3億5000万人以上のユーザーを抱えるShareChatは、本番環境でAcceleratorを導入した後、ジョブ速度が2倍になり、インフラストラクチャコストが50%削減されました。

Acceleratorの適応能力は、より広範な業界の注目も集めています。Veloxプロジェクトの共同創設者であるOrri Erlingは、DataPelagoの取り組みを、オープンソースシステムがCPUで達成した進歩の自然な流れと見ています。「Veloxは設立以来、分析ワークロードの高速化に深く焦点を当ててきました。これまで、この高速化はCPUを中心に進められており、低レイテンシと改善されたリソース利用が企業のデータ管理の取り組みに与える影響を見てきました」とErlingはコメントしました。「DataPelagoのSpark Acceleratorは、GPUアーキテクチャにNucleusを活用することで、組織の最も要求の厳しいデータ処理タスクにおいて、さらに大きな速度と効率性の向上をもたらす可能性を秘めています。」

新しいSpark Acceleratorは、DataPelagoが2024年後半にUniversal Data Processing Engineを発表し、ステルスモードから脱却した際に導入した基盤技術に直接基づいています。当時、同社は、コード変更を必要とせずにデータワークロードを最適なプロセッサにルーティングするように設計された仮想化レイヤーについて説明していました。この当初のビジョンが、Spark Acceleratorを使用している顧客から報告されたパフォーマンス改善の根幹をなしています。

Acceleratorは現在、Amazon Web Services (AWS) とGoogle Cloud Platform (GCP) の両方で利用可能であり、Google Cloud Marketplace経由でもアクセスできます。DataPelagoは、導入には通常数分しかかからず、数週間は不要であると述べており、アプリケーションの書き換え、データコネクタの交換、セキュリティポリシーの調整の必要性を排除します。Sparkの既存の認証および暗号化プロトコルとシームレスに統合され、リアルタイムのパフォーマンス監視のための組み込みの可観測性ツールが含まれています。この可視性とプラグアンドプレイ統合の組み合わせにより、進行中の操作を中断することなく顧客の導入が容易になります。

当初は分析とETLに焦点を当てていましたが、GoyalはAIおよびGenAIパイプライン内でのAcceleratorの需要が高まっていることを示しました。「これらのモデルの計算フットプリントは増え続けています」と彼は述べました。「私たちの目標は、チームがインフラストラクチャを再構築することなく、そのパフォーマンスを手頃な価格で引き出すのを支援することです。」

次なる成長段階を支援するため、DataPelagoは最近、元SAPおよびMicrosoftのエグゼクティブであるJohn “JG” Chirapurathを社長に任命しました。Chirapurathは以前、SAPでエグゼクティブバイスプレジデント兼チーフマーケティング＆ソリューションオフィサー、MicrosoftでAzure担当バイスプレジデントを務めていました。彼の任命は、DataPelagoが導入を拡大し、業界パートナーシップを深化させるための戦略的な推進を意味します。

DataPelagoのSpark Accelerator：モダンクラウドで性能を劇的に向上

関連記事

Open SWE: Langchainのオープンソース非同期AIコーディングエージェント

AIチップ輸出裁判：Nvidiaが「キルスイッチ」導入に反対の理由

GPD Win 5：外部バッテリーでデスクトップ級携帯ゲームを実現