MLPerf Storage v2.0: Points de Contrôle IA et Scalabilité

Insideainews

San Francisco, CA — MLCommons a publié les résultats de sa suite de benchmarks MLPerf Storage v2.0, une norme industrielle conçue pour évaluer les performances des systèmes de stockage pour les charges de travail d’apprentissage automatique de manière équitable, représentative et reproductible sur différentes architectures. Les résultats de la v2.0 indiquent une amélioration substantielle des capacités des systèmes de stockage, les systèmes testés supportant désormais environ deux fois plus d’accélérateurs d’IA par rapport à la ronde de benchmarks v1.0.

Un ajout clé au benchmark v2.0 est de nouveaux tests spécifiquement conçus pour répliquer le “checkpointing” (points de contrôle) pour les systèmes d’entraînement d’IA. Cela répond à un défi croissant dans l’IA à grande échelle : à mesure que les modèles d’entraînement s’étendent à des milliards, voire des trillions de paramètres, et que les clusters atteignent des centaines de milliers d’accélérateurs, les pannes système deviennent plus fréquentes. Par exemple, un cluster de 100 000 accélérateurs fonctionnant à pleine utilisation pourrait subir une panne toutes les demi-heures, tandis qu’un cluster d’un million d’accélérateurs pourrait en voir une toutes les trois minutes. De telles pannes, en particulier dans les calculs massivement parallèles où tous les accélérateurs fonctionnent de concert, peuvent arrêter un processus d’entraînement complet.

Pour atténuer ces perturbations et maintenir des performances élevées, la sauvegarde des résultats d’entraînement intermédiaires, connue sous le nom de “checkpointing”, est largement acceptée comme essentielle. La communauté de l’IA a développé des modèles mathématiques pour optimiser les performances des clusters en équilibrant le surcoût des points de contrôle réguliers avec le coût et la fréquence de récupération après les pannes. Cependant, ces modèles nécessitent des données précises sur les performances et l’échelle des systèmes de stockage sous-jacents utilisés pour le checkpointing. Les tests de points de contrôle MLPerf Storage v2.0 fournissent précisément ces données, soulignant le besoin critique pour les parties prenantes de sélectionner soigneusement des systèmes de stockage capables de stocker et de récupérer efficacement les points de contrôle sans entraver la vitesse du système.

Curtis Anderson, co-président du groupe de travail MLPerf Storage, a souligné l’inévitabilité des pannes de composants dans l’entraînement d’IA à grande échelle. « Le checkpointing est désormais une pratique standard dans ces systèmes pour atténuer les pannes, et nous sommes fiers de fournir des données de benchmark critiques sur les systèmes de stockage pour permettre aux parties prenantes d’optimiser leurs performances d’entraînement », a-t-il déclaré. Anderson a également noté que les premiers résultats du benchmark de points de contrôle révèlent une large gamme de spécifications de performance parmi les systèmes de stockage actuels, suggérant que tous les systèmes ne sont pas adaptés de manière optimale à chaque scénario de checkpointing. Il a en outre souligné le rôle vital des frameworks logiciels comme PyTorch et TensorFlow dans la coordination de l’entraînement et de la récupération, ainsi que le potentiel d’amélioration de ces frameworks.

Au-delà du checkpointing, la suite de benchmarks v2.0 continue de mesurer les performances de stockage dans divers scénarios d’entraînement ML, simulant les demandes de stockage pour diverses configurations d’accélérateurs, modèles et charges de travail. En simulant le « temps de réflexion » des accélérateurs, le benchmark génère avec précision des modèles de stockage sans nécessiter d’exécutions d’entraînement réelles, ce qui le rend largement accessible. Le benchmark évalue principalement la capacité d’un système de stockage à maintenir les performances, en garantissant que les accélérateurs simulés maintiennent un niveau d’utilisation requis.

Les soumissions v2.0 ont mis en évidence une innovation significative et un large éventail d’approches techniques pour fournir un stockage haute performance pour l’entraînement d’IA. Celles-ci comprenaient six solutions de stockage local, deux solutions utilisant des accélérateurs intégrés au stockage, treize solutions définies par logiciel, douze systèmes de blocs, seize solutions de stockage partagé sur site et deux magasins d’objets. Oana Balmau, co-présidente du groupe de travail MLPerf Storage, a fait remarquer : « Tout est en train de s’adapter à l’échelle : modèles, paramètres, ensembles de données d’entraînement, clusters et accélérateurs. Il n’est pas surprenant de constater que les fournisseurs de systèmes de stockage innovent pour prendre en charge des systèmes de plus en plus grands. » Elle a ajouté : « Face à la nécessité de fournir des solutions de stockage à la fois haute performance et à une échelle sans précédent, la communauté technique s’est une fois de plus mobilisée et innove à un rythme effréné. »

Le benchmark MLPerf Storage est le résultat d’un effort d’ingénierie collaboratif de trois ans impliquant 35 fournisseurs de solutions de stockage et groupes de recherche universitaires de premier plan. Sa nature open-source et évaluée par les pairs favorise un environnement concurrentiel équitable qui stimule l’innovation, les performances et l’efficacité énergétique à travers l’industrie, tout en fournissant des informations techniques cruciales aux clients déployant et affinant des systèmes d’entraînement d’IA.

La large participation à la v2.0 souligne la reconnaissance par l’industrie de l’importance du stockage haute performance. MLPerf Storage v2.0 comprend plus de 200 résultats de performance provenant de 26 organisations soumissionnaires de sept pays différents. Ces organisations incluent Alluxio, Argonne National Lab, DDN, ExponTech, FarmGPU, H3C, Hammerspace, HPE, JNIST/Huawei, Juicedata, Kingston, KIOXIA, Lightbits Labs, MangoBoost, Micron, Nutanix, Oracle, Quanta Computer, Samsung, Sandisk, Simplyblock, TTA, UBIX, IBM, WDC et YanRong.

David Kanter, responsable de MLPerf chez MLCommons, a noté que cette ronde a établi de nouveaux records pour les benchmarks MLPerf en termes d’organisations participantes et de soumissions totales. « La communauté de l’IA voit clairement l’importance de notre travail dans la publication de données de performance précises, fiables et impartiales sur les systèmes de stockage, et elle s’est mobilisée à l’échelle mondiale pour y participer », a déclaré Kanter. Il a salué les nombreux nouveaux soumissionnaires, notamment Alluxio, ExponTech, FarmGPU, H3C, Kingston, KIOXIA, Oracle, Quanta Computer, Samsung, Sandisk, TTA, UBIX, IBM et WDC. Kanter a conclu que ce niveau de participation est un « tournant pour le benchmarking », permettant la publication de données plus précises et représentatives sur les systèmes réels, et donnant aux parties prenantes les informations nécessaires pour optimiser leurs opérations.