MLPerf Storage v2.0: Puntos de Control IA y Escalabilidad Mejorada
San Francisco, CA — MLCommons ha publicado los resultados de su conjunto de benchmarks MLPerf Storage v2.0, un estándar de la industria diseñado para evaluar el rendimiento de los sistemas de almacenamiento para cargas de trabajo de aprendizaje automático de una manera justa, representativa y repetible en diferentes arquitecturas. Los resultados de la v2.0 indican una mejora sustancial en las capacidades de los sistemas de almacenamiento, con los sistemas probados ahora soportando aproximadamente el doble de aceleradores de IA en comparación con la ronda de benchmarks v1.0.
Una adición clave al benchmark v2.0 son las nuevas pruebas diseñadas específicamente para replicar el uso de puntos de control en sistemas de entrenamiento de IA. Esto aborda un desafío creciente en la IA a gran escala: a medida que los modelos de entrenamiento se expanden a miles de millones o incluso billones de parámetros y los clústeres crecen a cientos de miles de aceleradores, los fallos del sistema se vuelven más frecuentes. Por ejemplo, un clúster con 100.000 aceleradores funcionando a plena utilización podría experimentar un fallo cada media hora, mientras que un clúster de un millón de aceleradores podría ver uno cada tres minutos. Tales fallos, especialmente en cálculos masivamente paralelos donde todos los aceleradores operan al unísono, pueden detener un proceso de entrenamiento completo.
Para mitigar estas interrupciones y mantener un alto rendimiento, el guardado de resultados intermedios de entrenamiento, conocido como puntos de control (checkpointing), es ampliamente aceptado como esencial. La comunidad de IA ha desarrollado modelos matemáticos para optimizar el rendimiento del clúster equilibrando la sobrecarga de los puntos de control regulares con el costo y la frecuencia de recuperación de fallos. Sin embargo, estos modelos requieren datos precisos sobre el rendimiento y la escala de los sistemas de almacenamiento subyacentes utilizados para el checkpointing. Las pruebas de puntos de control de MLPerf Storage v2.0 proporcionan exactamente estos datos, destacando la necesidad crítica de que las partes interesadas seleccionen cuidadosamente sistemas de almacenamiento que puedan almacenar y recuperar puntos de control de manera eficiente sin impedir la velocidad del sistema.
Curtis Anderson, copresidente del grupo de trabajo MLPerf Storage, enfatizó la inevitabilidad de los fallos de componentes en el entrenamiento de IA a gran escala. “El checkpointing es ahora una práctica estándar en estos sistemas para mitigar fallos, y estamos orgullosos de proporcionar datos de benchmark críticos sobre los sistemas de almacenamiento para permitir a las partes interesadas optimizar su rendimiento de entrenamiento”, afirmó. Anderson también señaló que los resultados iniciales del benchmark de puntos de control revelan una amplia gama de especificaciones de rendimiento entre los sistemas de almacenamiento actuales, lo que sugiere que no todos los sistemas son óptimamente adecuados para cada escenario de checkpointing. Además, destacó el papel vital de los frameworks de software como PyTorch y TensorFlow en la coordinación del entrenamiento y la recuperación, y el potencial para mejorar estos frameworks.
Más allá del checkpointing, el conjunto de benchmarks v2.0 continúa midiendo el rendimiento del almacenamiento en diversos escenarios de entrenamiento de ML, simulando las demandas de almacenamiento para varias configuraciones de aceleradores, modelos y cargas de trabajo. Al simular el “tiempo de pensamiento” de los aceleradores, el benchmark genera patrones de almacenamiento con precisión sin requerir ejecuciones de entrenamiento reales, lo que lo hace ampliamente accesible. El benchmark evalúa principalmente la capacidad de un sistema de almacenamiento para mantener el rendimiento, asegurando que los aceleradores simulados mantengan un nivel de utilización requerido.
Las entregas de v2.0 mostraron una innovación significativa y una diversa gama de enfoques técnicos para ofrecer almacenamiento de alto rendimiento para el entrenamiento de IA. Estos incluyeron seis soluciones de almacenamiento local, dos soluciones que utilizan aceleradores en el almacenamiento, trece soluciones definidas por software, doce sistemas de bloques, dieciséis soluciones de almacenamiento compartido en las instalaciones y dos almacenes de objetos. Oana Balmau, copresidenta del grupo de trabajo MLPerf Storage, comentó: “Todo está escalando: modelos, parámetros, conjuntos de datos de entrenamiento, clústeres y aceleradores. No es de extrañar ver que los proveedores de sistemas de almacenamiento están innovando para soportar sistemas de escala cada vez mayor”. Añadió: “Ante la necesidad de ofrecer soluciones de almacenamiento que sean de alto rendimiento y a una escala sin precedentes, la comunidad técnica ha vuelto a dar un paso adelante y está innovando a un ritmo frenético”.
El benchmark MLPerf Storage es el resultado de un esfuerzo de ingeniería colaborativo de tres años que involucró a 35 proveedores líderes de soluciones de almacenamiento y grupos de investigación académica. Su naturaleza de código abierto y revisada por pares fomenta un entorno competitivo justo que impulsa la innovación, el rendimiento y la eficiencia energética en toda la industria, al mismo tiempo que proporciona información técnica crucial para los clientes que implementan y ajustan los sistemas de entrenamiento de IA.
La amplia participación en la v2.0 subraya el reconocimiento de la industria de la importancia del almacenamiento de alto rendimiento. MLPerf Storage v2.0 incluye más de 200 resultados de rendimiento de 26 organizaciones remitentes de siete países diferentes. Estas organizaciones incluyen Alluxio, Argonne National Lab, DDN, ExponTech, FarmGPU, H3C, Hammerspace, HPE, JNIST/Huawei, Juicedata, Kingston, KIOXIA, Lightbits Labs, MangoBoost, Micron, Nutanix, Oracle, Quanta Computer, Samsung, Sandisk, Simplyblock, TTA, UBIX, IBM, WDC y YanRong.
David Kanter, jefe de MLPerf en MLCommons, señaló que esta ronda estableció nuevos récords para los benchmarks de MLPerf en términos de organizaciones participantes y envíos totales. “La comunidad de IA ve claramente la importancia de nuestro trabajo en la publicación de datos de rendimiento precisos, fiables e imparciales sobre los sistemas de almacenamiento, y ha dado un paso adelante a nivel mundial para ser parte de ello”, afirmó Kanter. Dio la bienvenida a los numerosos remitentes por primera vez, incluidos Alluxio, ExponTech, FarmGPU, H3C, Kingston, KIOXIA, Oracle, Quanta Computer, Samsung, Sandisk, TTA, UBIX, IBM y WDC. Kanter concluyó que este nivel de participación es un “cambio de juego para el benchmarking”, que permite la publicación de datos más precisos y representativos sobre sistemas del mundo real, y empodera a las partes interesadas con la información necesaria para optimizar sus operaciones.