NVIDIA XGBoost 3.0 : L'IA téraoctet sur Superchip Grace Hopper

Marktechpost

NVIDIA a dévoilé une avancée significative dans l’apprentissage automatique évolutif avec la sortie de XGBoost 3.0. Cette dernière itération peut désormais entraîner des modèles d’arbres de décision à gradient boosté (GBDT), une classe d’algorithmes puissante largement utilisée dans l’analyse prédictive, sur des ensembles de données allant des gigaoctets jusqu’à un téraoctet complet. De manière cruciale, cette immense capacité de traitement est réalisable sur un seul Superchip GH200 Grace Hopper, marquant une simplification substantielle pour les entreprises s’attaquant à des applications comme la détection de fraude, la modélisation du risque de crédit et le trading algorithmique.

Au cœur de cette avancée se trouve l’innovant DMatrix de Quantile à Mémoire Externe au sein de XGBoost 3.0. Historiquement, la capacité de la mémoire GPU a été un goulot d’étranglement pour l’entraînement de grands modèles, nécessitant souvent des frameworks multi-nœuds complexes ou des serveurs massifs et riches en mémoire. La nouvelle solution de NVIDIA contourne ces limitations en tirant parti de l’architecture de mémoire cohérente du Superchip Grace Hopper et de sa bande passante NVLink-C2C ultrarapide de 900 Go/s. Cette conception sophistiquée permet le streaming direct de données pré-binées et compressées depuis la RAM du système principal de l’hôte directement vers le GPU, surmontant efficacement les contraintes de mémoire qui entravaient auparavant l’entraînement à grande échelle sur des systèmes à puce unique.

Les avantages concrets de cette percée sont déjà évidents. Des institutions telles que la Banque Royale du Canada (RBC) ont signalé des gains remarquables, y compris une amélioration de la vitesse jusqu’à 16 fois et une réduction de 94 % du coût total de possession (TCO) pour leurs pipelines d’entraînement de modèles après la transition vers XGBoost alimenté par GPU. Cette augmentation spectaculaire de l’efficacité est particulièrement vitale pour les flux de travail qui exigent un réglage fréquent des modèles et sont soumis à des volumes de données en évolution rapide, permettant aux entreprises d’optimiser les fonctionnalités et de faire évoluer leurs opérations avec une vitesse et une rentabilité sans précédent.

Le mécanisme sous-jacent de la nouvelle approche de la mémoire externe intègre plusieurs innovations clés. Le DMatrix de Quantile à Mémoire Externe fonctionne en pré-binant chaque caractéristique dans des compartiments de quantiles, en gardant les données compressées dans la RAM de l’hôte, puis en les transmettant au GPU uniquement si nécessaire. Cette gestion intelligente des données maintient la précision tout en réduisant considérablement la charge de mémoire du GPU. Cette conception permet à un seul Superchip GH200, équipé de 80 Go de RAM GPU HBM3 à haute bande passante et de 480 Go supplémentaires de RAM système LPDDR5X, de traiter un ensemble de données à l’échelle du téraoctet – une tâche auparavant réservée aux clusters multi-GPU. De plus, pour les équipes de science des données utilisant déjà l’écosystème RAPIDS de NVIDIA, l’adoption de cette nouvelle méthode est remarquablement simple, ne nécessitant que des ajustements de code minimes.

Pour les développeurs cherchant à maximiser les performances avec XGBoost 3.0, NVIDIA recommande des pratiques techniques spécifiques. L’utilisation de grow_policy='depthwise' pour la construction d’arbres est conseillée pour des performances optimales de la mémoire externe. Le support complet de Grace Hopper est mieux obtenu en exécutant avec CUDA 12.8 ou plus récent et un pilote compatible HMM. Il est également important de noter que si la forme des données est importante, le nombre de lignes, ou d’étiquettes, est le facteur principal limitant l’évolutivité, les tables plus larges ou plus hautes produisant des performances comparables sur le GPU.

Au-delà des capacités de mémoire externe, XGBoost 3.0 introduit plusieurs autres améliorations notables. La version inclut un support expérimental pour la mémoire externe distribuée à travers les clusters GPU, signalant une évolutivité future. Elle présente également des exigences de mémoire réduites et des temps d’initialisation plus rapides, en particulier pour les ensembles de données majoritairement denses. Un support complet pour les caractéristiques catégorielles, la régression quantile et l’explicabilité SHAP a également été intégré dans le mode mémoire externe, étendant la polyvalence et l’interprétabilité du modèle.

En permettant l’entraînement GBDT à l’échelle du téraoctet sur une seule puce, NVIDIA démocratise l’accès à des capacités d’apprentissage automatique massives pour les institutions financières et un large éventail d’utilisateurs d’entreprise. Cette avancée ouvre la voie à une itération de modèle plus rapide, à des coûts opérationnels considérablement réduits et à une complexité informatique simplifiée, marquant un bond substantiel en avant dans l’apprentissage automatique évolutif et accéléré.