MLPerf Storage v2.0: AIチェックポイントとスケーラビリティの向上

Insideainews

カリフォルニア州サンフランシスコ — MLCommonsは、MLPerf Storage v2.0ベンチマークスイートの結果を発表しました。これは、機械学習ワークロード向けストレージシステムの性能を、異なるアーキテクチャ間で公平、代表的、かつ再現可能な方法で評価するために設計された業界標準です。v2.0の結果は、ストレージシステム能力の大幅な向上を示しており、テストされたシステムはv1.0ベンチマークラウンドと比較して、AIアクセラレーターの数を約2倍サポートできるようになりました。

v2.0ベンチマークの主要な追加点は、AIトレーニングシステム向けのチェックポイント機能を再現するために特別に設計された新しいテストです。これは、大規模AIにおける増大する課題に対処するものです。トレーニングモデルが数十億、さらには数兆のパラメータに拡大し、クラスターが数十万のアクセラレーターに成長するにつれて、システム障害がより頻繁に発生するようになります。例えば、10万個のアクセラレーターがフル稼働しているクラスターでは、30分ごとに障害が発生する可能性があり、100万個のアクセラレーターを持つクラスターでは3分ごとに障害が発生する可能性があります。このような障害は、特にすべてのアクセラレーターが同期して動作する大規模並列計算において、トレーニングプロセス全体を停止させる可能性があります。

これらの中断を軽減し、高いパフォーマンスを維持するために、チェックポイントとして知られる中間トレーニング結果の保存は、不可欠であると広く認識されています。AIコミュニティは、定期的なチェックポイントのオーバーヘッドと、障害からの回復にかかるコストおよび頻度とのバランスを取ることで、クラスターパフォーマンスを最適化するための数学的モデルを開発してきました。しかし、これらのモデルは、チェックポイントに使用される基盤となるストレージシステムのパフォーマンスとスケールに関する正確なデータを必要とします。MLPerf Storage v2.0チェックポイントテストは、まさにこのデータを提供し、システム速度を妨げることなくチェックポイントを効率的に保存および取得できるストレージシステムを慎重に選択することの重要な必要性を強調しています。

MLPerf Storageワーキンググループ共同議長のカーティス・アンダーソン氏は、大規模AIトレーニングにおけるコンポーネント障害の不可避性を強調しました。「チェックポイントは、これらのシステムで障害を軽減するための標準的なプラクティスとなっており、利害関係者がトレーニングパフォーマンスを最適化できるように、ストレージシステムに関する重要なベンチマークデータを提供できることを誇りに思います」と述べました。アンダーソン氏はまた、初期のチェックポイントベンチマーク結果が、現在のストレージシステム間で幅広いパフォーマンス仕様があることを明らかにし、すべてのシステムがあらゆるチェックポイントシナリオに最適ではないことを示唆していると指摘しました。さらに、PyTorchやTensorFlowのようなソフトウェアフレームワークがトレーニングとリカバリを調整する上で果たす重要な役割と、これらのフレームワークを強化する可能性についても指摘しました。

チェックポイント以外にも、v2.0ベンチマークスイートは、多様なMLトレーニングシナリオ全体でストレージ性能を測定し続け、さまざまなアクセラレーター構成、モデル、ワークロードのストレージ要件をシミュレートしています。アクセラレーターの「思考時間」をシミュレートすることにより、ベンチマークは実際のトレーニング実行を必要とせずにストレージパターンを正確に生成し、広く利用可能になっています。ベンチマークは主に、ストレージシステムがパフォーマンスを維持する能力を評価し、シミュレートされたアクセラレーターが必要な利用レベルを維持することを保証します。

v2.0の提出物では、AIトレーニング向けに高性能ストレージを提供するための significant なイノベーションと多様な技術的アプローチが示されました。これには、6つのローカルストレージソリューション、ストレージ内アクセラレーターを利用する2つのソリューション、13のソフトウェア定義ソリューション、12のブロックシステム、16のオンプレミス共有ストレージソリューション、および2つのオブジェクトストアが含まれていました。MLPerf Storageワーキンググループ共同議長のオアナ・バルマウ氏は、「モデル、パラメータ、トレーニングデータセット、クラスター、アクセラレーターなど、すべてがスケールアップしています。ストレージシステムプロバイダーが、これまで以上に大規模なシステムをサポートするために革新しているのは当然のことです」と述べました。彼女はさらに、「高性能かつ前例のない規模のストレージソリューションを提供するというニーズに直面し、技術コミュニティは再び立ち上がり、猛烈なペースで革新を進めています」と付け加えました。

MLPerf Storageベンチマークは、35の主要なストレージソリューションプロバイダーと学術研究グループが関与した3年間の共同エンジニアリング努力の成果です。そのオープンソースでピアレビューされた性質は、業界全体のイノベーション、パフォーマンス、エネルギー効率を推進する公平な競争環境を育むとともに、AIトレーニングシステムを展開および微調整する顧客にとって重要な技術情報を提供します。

v2.0への幅広い参加は、高性能ストレージの重要性に対する業界の認識を裏付けています。MLPerf Storage v2.0には、7つの異なる国の26の提出組織から200を超えるパフォーマンス結果が含まれています。これらの組織には、Alluxio、Argonne National Lab、DDN、ExponTech、FarmGPU、H3C、Hammerspace、HPE、JNIST/Huawei、Juicedata、Kingston、KIOXIA、Lightbits Labs、MangoBoost、Micron、Nutanix、Oracle、Quanta Computer、Samsung、Sandisk、Simplyblock、TTA、UBIX、IBM、WDC、YanRongが含まれます。

MLCommonsのMLPerf責任者であるデビッド・カンター氏は、このラウンドが参加組織数と総提出数においてMLPerfベンチマークの新記録を樹立したと述べました。「AIコミュニティは、ストレージシステムに関する正確で信頼性の高い、偏りのないパフォーマンスデータを公開する私たちの仕事の重要性を明確に認識しており、世界中でその一部となるために立ち上がってくれました」とカンター氏は述べました。彼は、Alluxio、ExponTech、FarmGPU、H3C、Kingston、KIOXIA、Oracle、Quanta Computer、Samsung、Sandisk、TTA、UBIX、IBM、WDCを含む多数の新規提出者を歓迎しました。カンター氏は、このレベルの参加は「ベンチマークにとってゲームチェンジャー」であり、実世界システムに関するより正確で代表的なデータの公開を可能にし、利害関係者に運用を最適化するために必要な情報を提供すると結論付けました。