NVIDIA XGBoost 3.0: IA a escala de terabytes en el Superchip Grace Hopper

Marktechpost

NVIDIA ha presentado un avance significativo en el aprendizaje automático escalable con el lanzamiento de XGBoost 3.0. Esta última iteración ahora puede entrenar modelos de árboles de decisión potenciados por gradiente (GBDT), una potente clase de algoritmos ampliamente utilizada en el análisis predictivo, en conjuntos de datos que van desde gigabytes hasta un terabyte completo. Crucialmente, esta inmensa capacidad de procesamiento se logra en un solo Superchip GH200 Grace Hopper, lo que simplifica sustancialmente las tareas para empresas que abordan aplicaciones como la detección de fraudes, el modelado de riesgo crediticio y el comercio algorítmico.

Un elemento central de este avance es el innovador DMatrix Cuantil de Memoria Externa dentro de XGBoost 3.0. Históricamente, la capacidad de la memoria de la GPU ha sido un cuello de botella para el entrenamiento de modelos grandes, lo que a menudo ha requerido marcos multinodo complejos o servidores masivos y con mucha memoria. La nueva solución de NVIDIA elude estas limitaciones al aprovechar la arquitectura de memoria coherente del Superchip Grace Hopper y su ultrarrápido ancho de banda NVLink-C2C de 900 GB/s. Este diseño sofisticado permite la transmisión directa de datos pre-binados y comprimidos desde la RAM del sistema principal del host directamente a la GPU, superando eficazmente las restricciones de memoria que anteriormente obstaculizaban el entrenamiento a gran escala en sistemas de un solo chip.

Los beneficios en el mundo real de este avance ya son evidentes. Instituciones como el Royal Bank of Canada (RBC) han reportado ganancias notables, incluyendo una mejora de velocidad de hasta 16 veces y una reducción del 94% en el costo total de propiedad (TCO) para sus pipelines de entrenamiento de modelos después de la transición a XGBoost impulsado por GPU. Este aumento drástico en la eficiencia es particularmente vital para flujos de trabajo que exigen una afinación frecuente del modelo y están sujetos a volúmenes de datos que cambian rápidamente, lo que permite a las empresas optimizar las características y escalar sus operaciones con una velocidad y rentabilidad sin precedentes.

El mecanismo subyacente del nuevo enfoque de memoria externa integra varias innovaciones clave. El DMatrix Cuantil de Memoria Externa funciona pre-binando cada característica en cubos de cuantiles, manteniendo los datos comprimidos dentro de la RAM del host y luego transmitiéndolos a la GPU solo cuando sea necesario. Esta gestión inteligente de datos mantiene la precisión al tiempo que reduce significativamente la carga de memoria de la GPU. Este diseño permite que un solo Superchip GH200, equipado con 80 GB de RAM GPU HBM3 de alto ancho de banda y 480 GB adicionales de RAM de sistema LPDDR5X, procese un conjunto de datos a escala de terabytes, una tarea que antes estaba reservada para clústeres de múltiples GPU. Además, para los equipos de ciencia de datos que ya utilizan el ecosistema RAPIDS de NVIDIA, la adopción de este nuevo método es notablemente sencilla, requiriendo solo ajustes mínimos de código.

Para los desarrolladores que buscan maximizar el rendimiento con XGBoost 3.0, NVIDIA recomienda prácticas recomendadas técnicas específicas. Se aconseja utilizar grow_policy='depthwise' para la construcción de árboles para un rendimiento óptimo de la memoria externa. El soporte completo de Grace Hopper se logra mejor ejecutando con CUDA 12.8 o posterior y un controlador habilitado para HMM. También es importante tener en cuenta que, si bien la forma de los datos importa, el número de filas o etiquetas es el factor principal que limita la escalabilidad, y las tablas más anchas o más altas producen un rendimiento comparable en la GPU.

Más allá de las capacidades de memoria externa, XGBoost 3.0 introduce varias otras mejoras notables. El lanzamiento incluye soporte experimental para memoria externa distribuida en clústeres de GPU, lo que indica una escalabilidad futura. También presenta requisitos de memoria reducidos y tiempos de inicialización más rápidos, particularmente para conjuntos de datos mayormente densos. El soporte integral para características categóricas, regresión de cuantiles y explicabilidad SHAP también se ha integrado en el modo de memoria externa, expandiendo la versatilidad e interpretabilidad del modelo.

Al permitir el entrenamiento GBDT a escala de terabytes en un solo chip, NVIDIA está democratizando el acceso a capacidades masivas de aprendizaje automático tanto para instituciones financieras como para un amplio espectro de usuarios empresariales. Este avance allana el camino para una iteración de modelos más rápida, costos operativos significativamente más bajos y una complejidad de TI reducida, marcando un salto sustancial en el aprendizaje automático escalable y acelerado.