NVIDIA XGBoost 3.0: TB-Skalierungs-KI auf Grace Hopper Superchip

Marktechpost

NVIDIA hat mit der Veröffentlichung von XGBoost 3.0 einen bedeutenden Fortschritt im skalierbaren maschinellen Lernen vorgestellt. Diese neueste Iteration kann nun Gradient-Boosting-Entscheidungsbaum (GBDT)-Modelle, eine leistungsstarke Klasse von Algorithmen, die in der prädiktiven Analytik weit verbreitet sind, auf Datensätzen von Gigabyte bis zu einem vollen Terabyte trainieren. Entscheidend ist, dass diese immense Verarbeitungsfähigkeit auf einem einzigen GH200 Grace Hopper Superchip erreicht werden kann, was eine wesentliche Vereinfachung für Unternehmen darstellt, die Anwendungen wie Betrugserkennung, Kreditrisikomodellierung und algorithmischen Handel bewältigen müssen.

Im Mittelpunkt dieser Entwicklung steht die innovative External-Memory Quantile DMatrix innerhalb von XGBoost 3.0. Historisch gesehen war die Kapazität des GPU-Speichers ein Engpass für das Training großer Modelle, was oft komplexe Multi-Node-Frameworks oder massive, speicherreiche Server erforderte. NVIDIAs neue Lösung umgeht diese Einschränkungen, indem sie die kohärente Speicherarchitektur des Grace Hopper Superchips und seine ultraschnelle 900 GB/s NVLink-C2C-Bandbreite nutzt. Dieses ausgeklügelte Design ermöglicht das direkte Streaming von vorab gebinnten, komprimierten Daten aus dem Hauptsystem-RAM des Hosts direkt in die GPU, wodurch die Speicherbeschränkungen, die zuvor das Training großer Skala auf Ein-Chip-Systemen behinderten, effektiv überwunden werden.

Die realen Vorteile dieses Durchbruchs sind bereits offensichtlich. Institutionen wie die Royal Bank of Canada (RBC) haben bemerkenswerte Gewinne gemeldet, darunter eine bis zu 16-fache Geschwindigkeitsverbesserung und eine 94%ige Reduzierung der Gesamtbetriebskosten (TCO) für ihre Modelltrainingspipelines nach dem Übergang zu GPU-gestütztem XGBoost. Dieser dramatische Effizienzgewinn ist besonders wichtig für Workflows, die häufige Modellabstimmung erfordern und schnell wechselnden Datenvolumen unterliegen, wodurch Unternehmen Merkmale optimieren und ihre Operationen mit beispielloser Geschwindigkeit und Kosteneffizienz skalieren können.

Der zugrunde liegende Mechanismus des neuen externen Speicheransatzes integriert mehrere wichtige Innovationen. Die External-Memory Quantile DMatrix funktioniert, indem jedes Merkmal in Quantil-Buckets vorab gebinnt wird, die Daten im Host-RAM komprimiert bleiben und dann nur bei Bedarf an die GPU gestreamt werden. Dieses intelligente Datenmanagement erhält die Genauigkeit bei gleichzeitiger erheblicher Reduzierung der Speicherlast der GPU. Dieses Design ermöglicht es einem einzigen GH200 Superchip, der mit 80 GB Hochbandbreiten-HBM3-GPU-RAM und zusätzlichen 480 GB LPDDR5X-System-RAM ausgestattet ist, einen vollständigen Terabyte-Skala-Datensatz zu verarbeiten – eine Aufgabe, die zuvor Multi-GPU-Clustern vorbehalten war. Darüber hinaus ist die Einführung dieser neuen Methode für Datenwissenschaftler, die bereits NVIDIAs RAPIDS-Ökosystem nutzen, bemerkenswert unkompliziert und erfordert nur minimale Codeanpassungen.

Für Entwickler, die die Leistung mit XGBoost 3.0 maximieren möchten, empfiehlt NVIDIA spezifische technische Best Practices. Die Verwendung von grow_policy='depthwise' für den Baumaufbau wird für eine optimale externe Speicherleistung empfohlen. Die volle Grace Hopper-Unterstützung wird am besten durch Ausführen mit CUDA 12.8 oder neuer und einem HMM-fähigen Treiber erreicht. Es ist auch wichtig zu beachten, dass, obwohl die Datenform wichtig ist, die Anzahl der Zeilen oder Labels der primäre Faktor ist, der die Skalierbarkeit begrenzt, wobei breitere oder höhere Tabellen eine vergleichbare Leistung auf der GPU liefern.

Neben den externen Speicherfunktionen führt XGBoost 3.0 mehrere weitere bemerkenswerte Verbesserungen ein. Die Veröffentlichung umfasst experimentelle Unterstützung für verteilten externen Speicher über GPU-Cluster hinweg, was auf zukünftige Skalierbarkeit hindeutet. Sie bietet auch reduzierte Speicheranforderungen und schnellere Initialisierungszeiten, insbesondere für größtenteils dichte Datensätze. Eine umfassende Unterstützung für kategorische Merkmale, Quantilregression und SHAP-Erklärbarkeit wurde ebenfalls in den externen Speichermodus integriert, wodurch die Vielseitigkeit und Interpretierbarkeit des Modells erweitert wird.

Durch die Ermöglichung des GBDT-Trainings im Terabyte-Maßstab auf einem einzigen Chip demokratisiert NVIDIA den Zugang zu massiven Machine-Learning-Funktionen sowohl für Finanzinstitute als auch für ein breites Spektrum von Unternehmensanwendern. Dieser Fortschritt ebnet den Weg für eine schnellere Modelliteration, deutlich geringere Betriebskosten und eine reduzierte IT-Komplexität, was einen wesentlichen Sprung nach vorn im skalierbaren, beschleunigten maschinellen Lernen darstellt.