MLPerf Storage v2.0: KI-Checkpointing & Skalierbarkeit
San Francisco, CA — MLCommons hat die Ergebnisse seiner MLPerf Storage v2.0 Benchmark-Suite veröffentlicht, einem Industriestandard zur Bewertung der Leistung von Speichersystemen für Machine-Learning-Workloads auf eine faire, repräsentative und reproduzierbare Weise über verschiedene Architekturen hinweg. Die v2.0-Ergebnisse zeigen eine erhebliche Verbesserung der Speichersystemfähigkeiten, wobei die getesteten Systeme nun etwa doppelt so viele KI-Beschleuniger unterstützen wie in der v1.0-Benchmark-Runde.
Eine wichtige Ergänzung des v2.0-Benchmarks sind neue Tests, die speziell zur Replikation des Checkpointings für KI-Trainingssysteme entwickelt wurden. Dies adressiert eine wachsende Herausforderung in der groß angelegten KI: Da Trainingsmodelle auf Milliarden oder sogar Billionen von Parametern anwachsen und Cluster auf Hunderttausende von Beschleunigern expandieren, treten Systemausfälle häufiger auf. Zum Beispiel könnte ein Cluster mit 100.000 Beschleunigern, die bei voller Auslastung laufen, alle halbe Stunde einen Ausfall erleben, während ein Cluster mit einer Million Beschleunigern alle drei Minuten einen sehen könnte. Solche Ausfälle, insbesondere bei massiv parallelen Berechnungen, bei denen alle Beschleuniger im Gleichschritt arbeiten, können einen gesamten Trainingsprozess zum Stillstand bringen.
Um diese Unterbrechungen zu mindern und eine hohe Leistung aufrechtzuerhalten, wird das Speichern von Zwischenergebnissen des Trainings, bekannt als Checkpointing, weithin als unerlässlich angesehen. Die KI-Community hat mathematische Modelle entwickelt, um die Clusterleistung zu optimieren, indem der Overhead regelmäßiger Checkpoints gegen die Kosten und Häufigkeit der Wiederherstellung nach Ausfällen abgewogen wird. Diese Modelle erfordern jedoch präzise Daten über die Leistung und Skalierung der zugrunde liegenden Speichersysteme, die für das Checkpointing verwendet werden. Die MLPerf Storage v2.0 Checkpoint-Tests liefern genau diese Daten und unterstreichen die kritische Notwendigkeit für Stakeholder, Speichersysteme sorgfältig auszuwählen, die Checkpoints effizient speichern und abrufen können, ohne die Systemgeschwindigkeit zu beeinträchtigen.
Curtis Anderson, Co-Vorsitzender der MLPerf Storage Arbeitsgruppe, betonte die Unvermeidbarkeit von Komponentenfehlern im groß angelegten KI-Training. „Checkpointing ist heute eine Standardpraxis in diesen Systemen zur Minderung von Ausfällen, und wir sind stolz darauf, kritische Benchmark-Daten zu Speichersystemen bereitzustellen, damit Stakeholder ihre Trainingsleistung optimieren können“, erklärte er. Anderson bemerkte auch, dass die ersten Checkpoint-Benchmark-Ergebnisse eine breite Palette von Leistungsspezifikationen unter den aktuellen Speichersystemen offenbaren, was darauf hindeutet, dass nicht alle Systeme für jedes Checkpointing-Szenario optimal geeignet sind. Er wies ferner auf die wichtige Rolle von Software-Frameworks wie PyTorch und TensorFlow bei der Koordination von Training und Wiederherstellung sowie das Potenzial zur Verbesserung dieser Frameworks hin.
Über das Checkpointing hinaus misst die v2.0 Benchmark-Suite weiterhin die Speicherleistung in verschiedenen ML-Trainingsszenarien und simuliert Speicheranforderungen für verschiedene Beschleunigerkonfigurationen, Modelle und Workloads. Durch die Simulation der „Denkzeit“ von Beschleunigern generiert der Benchmark präzise Speichermuster, ohne tatsächliche Trainingsläufe zu erfordern, was ihn weithin zugänglich macht. Der Benchmark bewertet primär die Fähigkeit eines Speichersystems, die Leistung aufrechtzuerhalten, indem sichergestellt wird, dass simulierte Beschleuniger ein erforderliches Auslastungsniveau beibehalten.
Die v2.0-Einreichungen zeigten signifikante Innovationen und eine vielfältige Reihe technischer Ansätze zur Bereitstellung von Hochleistungsspeicher für das KI-Training. Dazu gehörten sechs lokale Speicherlösungen, zwei Lösungen, die Beschleuniger im Speicher nutzen, dreizehn softwaredefinierte Lösungen, zwölf Blocksysteme, sechzehn lokale Shared-Storage-Lösungen und zwei Objektspeicher. Oana Balmau, Co-Vorsitzende der MLPerf Storage Arbeitsgruppe, bemerkte: „Alles skaliert: Modelle, Parameter, Trainingsdatensätze, Cluster und Beschleuniger. Es ist keine Überraschung, dass Speichersystemanbieter Innovationen vorantreiben, um immer größere Systeme zu unterstützen.“ Sie fügte hinzu: „Angesichts der Notwendigkeit, Speicherlösungen zu liefern, die sowohl hochleistungsfähig als auch von beispiellosem Umfang sind, hat die technische Gemeinschaft erneut zugelegt und innoviert in rasendem Tempo.“
Der MLPerf Storage Benchmark ist das Ergebnis einer dreijährigen kollaborativen Ingenieursleistung, an der 35 führende Anbieter von Speicherlösungen und akademische Forschungsgruppen beteiligt waren. Seine Open-Source- und Peer-Review-Natur fördert ein faires Wettbewerbsumfeld, das Innovation, Leistung und Energieeffizienz in der gesamten Branche vorantreibt und gleichzeitig entscheidende technische Informationen für Kunden bereitstellt, die KI-Trainingssysteme bereitstellen und feinabstimmen.
Die breite Beteiligung an v2.0 unterstreicht die Anerkennung der Bedeutung von Hochleistungsspeicher durch die Industrie. MLPerf Storage v2.0 umfasst über 200 Leistungsergebnisse von 26 einreichenden Organisationen aus sieben verschiedenen Ländern. Zu diesen Organisationen gehören Alluxio, Argonne National Lab, DDN, ExponTech, FarmGPU, H3C, Hammerspace, HPE, JNIST/Huawei, Juicedata, Kingston, KIOXIA, Lightbits Labs, MangoBoost, Micron, Nutanix, Oracle, Quanta Computer, Samsung, Sandisk, Simplyblock, TTA, UBIX, IBM, WDC und YanRong.
David Kanter, Leiter von MLPerf bei MLCommons, bemerkte, dass diese Runde neue Rekorde für MLPerf-Benchmarks in Bezug auf teilnehmende Organisationen und Gesamteinreichungen aufstellte. „Die KI-Community erkennt klar die Bedeutung unserer Arbeit bei der Veröffentlichung genauer, zuverlässiger, unvoreingenommener Leistungsdaten zu Speichersystemen, und sie hat sich global daran beteiligt“, erklärte Kanter. Er begrüßte die zahlreichen Ersteinreicher, darunter Alluxio, ExponTech, FarmGPU, H3C, Kingston, KIOXIA, Oracle, Quanta Computer, Samsung, Sandisk, TTA, UBIX, IBM und WDC. Kanter schloss, dass dieses Maß an Beteiligung ein „Game-Changer für das Benchmarking“ ist, der die Veröffentlichung genauerer und repräsentativerer Daten zu realen Systemen ermöglicht und Stakeholdern die Informationen an die Hand gibt, die zur Optimierung ihrer Operationen erforderlich sind.