DataPelago Spark加速器:现代云端性能飞跃,成本锐减

Datanami

Apache Spark仍然是大规模数据处理的主导引擎,然而,其架构在云基础设施主要依赖CPU时开发,在当今多样化的计算环境中面临挑战。现代云平台越来越多地集成GPU、FPGA和其他专用硬件。然而,许多开源数据系统并未演进以利用这些进步,导致组织在未达到预期性能提升的情况下承担更高的计算成本。

为解决这一差异,DataPelago推出了其新的Spark加速器。该解决方案基于公司开发的通用数据处理引擎,集成了原生执行、CPU向量化和GPU支持。DataPelago旨在使组织能够在现代计算基础设施上运行分析、ETL(抽取、转换、加载)和GenAI(生成式AI)工作负载,而无需重写现有代码或数据管道。

Spark加速器在现有Spark集群中运行,无需重新配置。它在执行期间动态分析工作负载,智能地为每个任务组件选择最佳处理器——无论是CPU、GPU还是FPGA。DataPelago表示,这种方法可以将Spark作业的速度提高多达10倍,同时将计算成本降低高达80%。

DataPelago创始人兼首席执行官Rajan Goyal在一次独家采访中详细阐述了该加速器,称其为对传统数据系统与现代基础设施之间日益扩大的差距的直接回应。Goyal解释道:“如果你看看当今公共云中的服务器,它们不再是纯CPU服务器。它们都是CPU加上其他东西。”“但上个十年编写的许多数据栈都是为单一软件环境构建的,通常是基于Java或C++,并且只使用CPU。”

DataPelago的Spark加速器通过标准配置钩子连接到现有Spark集群,并作为补充组件运行。一旦激活,它会分析生成的查询计划,精确确定工作负载的每个部分应在何处执行——在CPU、GPU还是其他加速器上。

这些决策在运行时根据可用硬件和作业的具体特性做出。Goyal澄清道:“我们不是在取代Spark,而是在扩展它。”“我们的系统充当一个边车(sidecar)。它作为一个插件挂接到Spark集群中,并在幕后进行优化,而无需用户更改编写代码的方式。”Goyal强调,这种运行时灵活性对于在不给用户带来新复杂性的情况下提供性能至关重要。“没有一劳永逸的解决方案,”他指出,“所有方案都有不同的性能点或每美元性能点。在我们的工作负载中,您需要不同的特性。”通过适应每个环境中存在的硬件,该系统可以更有效地利用现代基础设施,而无需强制用户重新架构其管道。

这种适应性已经为早期采用者带来了显著的益处。一家管理PB级ETL管道的财富100强公司报告称,作业速度提高了3-4倍,数据处理成本降低了高达70%。虽然结果可能因工作负载而异,但Goyal肯定了这些节约的实际性质。他指出:“这是成本降低。那100美元将变成60美元或40美元。”这凸显了企业直接的财务优势。

其他早期客户也观察到了类似的收益。知名电子商务公司RevSure在短短48小时内部署了加速器,并报告其处理数百TB数据的ETL管道取得了显著改进。印度最大的社交媒体平台之一ShareChat拥有超过3.5亿用户,在生产环境中实施加速器后,作业速度翻了一番,基础设施成本降低了50%。

加速器的自适应能力也吸引了更广泛的行业关注。Velox项目联合创始人Orri Erling认为DataPelago的工作是开源系统在CPU上取得进展的自然演进。Erling评论道:“自成立以来,Velox一直专注于加速分析工作负载。迄今为止,这种加速主要围绕CPU,我们已经看到了更低延迟和更高资源利用率对企业数据管理工作的影响。”“DataPelago的Spark加速器,利用Nucleus进行GPU架构,为组织最苛刻的数据处理任务带来了更大速度和效率提升的潜力。”

新的Spark加速器直接建立在DataPelago于2024年末推出其通用数据处理引擎时揭示的基础技术之上。当时,该公司描述了一个虚拟化层,旨在将数据工作负载路由到最合适的处理器,而无需代码修改。这一最初的愿景现在支撑着客户使用Spark加速器报告的性能改进。

该加速器目前可在Amazon Web Services (AWS) 和 Google Cloud Platform (GCP) 上使用,也可通过Google Cloud Marketplace访问。DataPelago表示,部署通常只需几分钟而非几周,无需重写应用程序、更换数据连接器或调整安全策略。它与Spark现有的身份验证和加密协议无缝集成,并包含用于实时性能监控的内置可观测性工具。这种可见性和即插即用集成的结合,在不中断正在进行的操作的情况下促进了客户的采用。

虽然最初专注于分析和ETL,但Goyal表示AI和GenAI管道对加速器的需求日益增长。他观察到:“这些模型的计算足迹只会越来越大。我们的目标是帮助团队以经济实惠的方式解锁这种性能,而无需重塑其基础设施。”

为支持其下一阶段的增长,DataPelago最近任命前SAP和微软高管John “JG” Chirapurath为其总裁。Chirapurath此前曾担任SAP执行副总裁兼首席营销与解决方案官,以及微软Azure副总裁。他的任命标志着DataPelago在扩大采用和深化行业伙伴关系方面的战略推动。

DataPelago Spark加速器:现代云端性能飞跃,成本锐减 - OmegaNext AI 新闻