NVIDIA XGBoost 3.0:Grace Hopper 超级芯片上实现 TB 级 AI 突破

Marktechpost

NVIDIA 凭借 XGBoost 3.0 的发布,在可扩展机器学习领域取得了重大飞跃。该最新版本现在可以在从吉字节到完整太字节范围的数据集上训练梯度提升决策树 (GBDT) 模型,这是一种在预测分析中广泛使用的强大算法。至关重要的是,这种巨大的处理能力可在单个 GH200 Grace Hopper 超级芯片上实现,这大大简化了公司应对欺诈检测、信用风险建模和算法交易等应用的任务。

这一进步的核心是 XGBoost 3.0 中创新的外部内存分位数 DMatrix。过去,GPU 内存容量一直是训练大型模型的瓶颈,通常需要复杂的分布式框架或配备大量内存的服务器。NVIDIA 的新解决方案通过利用 Grace Hopper 超级芯片的连贯内存架构及其超快的 900GB/秒 NVLink-C2C 带宽,绕过了这些限制。这种复杂的设计允许将预分箱、压缩的数据直接从主机的系统内存流式传输到 GPU,有效克服了此前阻碍单芯片系统上大规模训练的内存限制。

这一突破的实际益处已经显而易见。加拿大皇家银行 (RBC) 等机构报告了显著的收益,包括在转向 GPU 加速的 XGBoost 后,其模型训练管道的速度提高了 16 倍,总拥有成本 (TCO) 降低了 94%。这种效率的显著提升对于需要频繁模型调优且数据量快速变化的工作流程尤为重要,使企业能够以前所未有的速度和成本效益优化功能并扩展其运营。

新外部内存方法的底层机制整合了多项关键创新。外部内存分位数 DMatrix 的工作原理是将每个特征预分箱到分位数桶中,将数据压缩在主机内存中,然后仅在需要时将其流式传输到 GPU。这种智能数据管理在保持准确性的同时显著降低了 GPU 的内存负载。这种设计允许单个 GH200 超级芯片(配备 80GB 高带宽 HBM3 GPU RAM 和额外的 480GB LPDDR5X 系统 RAM)处理完整太字节规模的数据集——这项任务以前仅限于多 GPU 集群。此外,对于已经使用 NVIDIA RAPIDS 生态系统的数据科学团队来说,采用这种新方法非常简单,只需要最少的代码调整。

对于寻求通过 XGBoost 3.0 最大化性能的开发人员,NVIDIA 建议采用特定的技术最佳实践。建议使用 grow_policy='depthwise' 进行树构建以获得最佳外部内存性能。通过 CUDA 12.8 或更高版本以及启用 HMM 的驱动程序运行可实现最佳的 Grace Hopper 支持。同样重要的是要注意,虽然数据形状很重要,但行数或标签数是限制可扩展性的主要因素,更宽或更高的表在 GPU 上能产生可比的性能。

除了外部内存功能外,XGBoost 3.0 还引入了其他几项显著增强。该版本包括对 GPU 集群分布式外部内存的实验性支持,预示着未来的可扩展性。它还具有更低的内存需求和更快的初始化时间,特别是对于大部分密集数据集。对分类特征、分位数回归和 SHAP 可解释性的全面支持也已集成到外部内存模式中,扩展了模型的通用性和可解释性。

通过在单个芯片上实现太字节规模的 GBDT 训练,NVIDIA 正在为金融机构和广泛的企业用户普及大规模机器学习功能。这一进步为更快的模型迭代、显著降低的运营成本和简化的 IT 复杂性铺平了道路,标志着可扩展、加速机器学习的重大飞跃。