MLPerf Storage v2.0:AI检查点与可扩展性大幅提升
旧金山,加利福尼亚州 — MLCommons 发布了其 MLPerf Storage v2.0 基准测试套件的结果。该套件是一项行业标准,旨在以公平、具代表性和可重复的方式,在不同架构下评估机器学习工作负载的存储系统性能。v2.0 的结果表明存储系统能力有了实质性提升,与 v1.0 基准测试轮次相比,受测系统现在支持的 AI 加速器数量大约翻了一番。
v2.0 基准测试的一个关键新增是专门为复制 AI 训练系统的检查点而设计的新测试。这解决了大规模 AI 中日益增长的挑战:随着训练模型扩展到数十亿甚至数万亿参数,集群增长到数十万加速器,系统故障变得更加频繁。例如,一个拥有 10 万个加速器、满负荷运行的集群可能每半小时就会发生一次故障,而一个百万加速器集群可能每三分钟就会发生一次故障。此类故障,尤其是在所有加速器同步运行的大规模并行计算中,可能导致整个训练过程停滞。
为了减轻这些中断并保持高性能,保存中间训练结果(即检查点)被广泛认为是必不可少的。AI 社区已经开发了数学模型,通过平衡常规检查点的开销与从故障中恢复的成本和频率,来优化集群性能。然而,这些模型需要关于用于检查点的底层存储系统性能和规模的精确数据。MLPerf Storage v2.0 检查点测试正是提供了这些数据,突出了利益相关者仔细选择能够高效存储和检索检查点而不影响系统速度的存储系统的关键需求。
MLPerf Storage 工作组联合主席 Curtis Anderson 强调了大规模 AI 训练中组件故障的必然性。他表示:“检查点现在是这些系统中减轻故障的标准做法,我们很自豪能够提供关于存储系统的关键基准数据,以帮助利益相关者优化其训练性能。” Anderson 还指出,初步的检查点基准测试结果揭示了当前存储系统之间广泛的性能规格差异,这表明并非所有系统都最适合每种检查点场景。他进一步指出 PyTorch 和 TensorFlow 等软件框架在协调训练和恢复中的重要作用,以及增强这些框架的潜力。
除了检查点,v2.0 基准测试套件还继续衡量各种 ML 训练场景下的存储性能,模拟不同加速器配置、模型和工作负载的存储需求。通过模拟加速器的“思考时间”,该基准测试无需实际训练运行即可准确生成存储模式,使其具有广泛的可访问性。该基准测试主要评估存储系统保持性能的能力,确保模拟加速器保持所需的利用率水平。
v2.0 的提交展示了显著的创新和多样化的技术方法,以提供高性能的 AI 训练存储。其中包括六种本地存储解决方案、两种利用存储内加速器的解决方案、十三种软件定义解决方案、十二种块系统、十六种本地共享存储解决方案和两种对象存储。MLPerf Storage 工作组联合主席 Oana Balmau 评论道:“一切都在扩展:模型、参数、训练数据集、集群和加速器。存储系统提供商正在创新以支持更大规模的系统,这不足为奇。” 她补充说:“面对提供高性能和前所未有规模的存储解决方案的需求,技术社区再次挺身而出,并以惊人的速度进行创新。”
MLPerf Storage 基准测试是 35 家领先存储解决方案提供商和学术研究团体三年协作工程努力的成果。其开源和同行评审的性质促进了公平的竞争环境,推动了整个行业的创新、性能和能源效率,同时还为部署和微调 AI 训练系统的客户提供了关键技术信息。
v2.0 的广泛参与凸显了业界对高性能存储重要性的认可。MLPerf Storage v2.0 包含来自七个不同国家的 26 个提交组织的 200 多项性能结果。这些组织包括 Alluxio、Argonne National Lab、DDN、ExponTech、FarmGPU、H3C、Hammerspace、HPE、JNIST/Huawei、Juicedata、Kingston、KIOXIA、Lightbits Labs、MangoBoost、Micron、Nutanix、Oracle、Quanta Computer、Samsung、Sandisk、Simplyblock、TTA、UBIX、IBM、WDC 和 YanRong。
MLCommons MLPerf 负责人 David Kanter 指出,这一轮在参与组织和总提交数量方面创下了 MLPerf 基准测试的新纪录。Kanter 表示:“AI 社区清楚地看到了我们在发布关于存储系统的准确、可靠、公正的性能数据方面工作的重要性,并且全球范围内的参与者都积极加入。” 他欢迎了许多首次提交者,包括 Alluxio、ExponTech、FarmGPU、H3C、Kingston、KIOXIA、Oracle、Quanta Computer、Samsung、Sandisk、TTA、UBIX、IBM 和 WDC。Kanter 总结说,这种参与水平是“基准测试的游戏规则改变者”,它能够发布关于真实世界的系统更准确和具代表性的数据,并为利益相关者提供优化其运营所需的信息。