英伟达Blackwell GPU与服务器发布,赋能企业AI与机器人技术

Artificialintelligence

英伟达(NVIDIA)正准备大幅扩展其加速计算平台的覆盖范围,宣布其全新的RTX PRO 6000 Blackwell服务器版GPU将很快集成到主要供应商的企业级服务器中。思科、戴尔科技(Dell Technologies)、HPE、联想(Lenovo)和超微(Supermicro)将提供这些强大GPU的各种配置,并将其整合到各自的2U服务器产品线中。此次推出旨在为一系列要求严苛的应用提供显著的性能和效率提升,包括高级AI模型训练、复杂图形渲染、复杂仿真模拟、数据分析以及关键工业操作。

据英伟达创始人兼首席执行官黄仁勋(Jensen Huang)表示,人工智能正在引发一场计算领域的根本性变革,这种转变是六十年来前所未有的。从以云为中心的现象开始,人工智能现在正在重塑本地数据中心的架构。在领先服务器制造商的支持下,英伟达旨在使其Blackwell RTX PRO服务器成为企业和工业AI工作负载的标准平台。

尽管每年销售的数百万台用于商业运营的服务器仍主要依赖传统CPU,但RTX PRO服务器的推出标志着通用业务工作负载向GPU加速的关键转变。英伟达声称,这些新的服务器版GPU与纯CPU系统相比,性能可提升高达45倍,能效可提高18倍,从而显著提升分析、仿真、视频处理和渲染能力。RTX PRO系列专为建立“AI工厂”的公司而设计,这些公司对空间、功耗和散热都有极高的要求。这些服务器也构成了英伟达AI数据平台的基础设施,支持先进的存储系统。例如,戴尔正在更新其AI数据平台以利用英伟达的架构,其PowerEdge R7725服务器将配备两块RTX PRO 6000 GPU、英伟达AI Enterprise软件以及集成的英伟达网络。这些新的2U服务器可容纳多达八个GPU单元,最初于五月在台北国际电脑展(COMPUTEX)上亮相。

这些新服务器的核心是英伟达先进的Blackwell架构。其关键特性包括第五代Tensor Cores和第二代Transformer Engine,后者通过FP4精度,执行AI推理任务的速度比前一代L40S GPU快六倍。在视觉计算方面,第四代RTX技术在照片渲染方面的性能比L40S GPU高四倍。该架构还集成了强大的虚拟化功能和英伟达多实例GPU(Multi-Instance GPU)技术,使每个GPU能够同时处理多达四个独立的工作负载。此外,改进的能源效率有助于降低数据中心的整体功耗。

除了传统的企业应用,RTX PRO服务器还专为支持物理AI和机器人技术而设计。英伟达的Omniverse库和Cosmos世界基础模型在这些服务器上运行,有助于进行复杂的数字孪生仿真、复杂的机器人训练程序以及大规模合成数据的创建。它们还支持英伟达Metropolis蓝图,实现高级视频搜索和摘要,以及对现实物理环境至关重要的视觉语言模型。英伟达通过新的Omniverse SDKs增强了其Omniverse和Cosmos产品,并扩展了与MuJoCo(MJCF)和通用场景描述(OpenUSD)的兼容性,这可能为超过25万名MJCF开发者开启机器人仿真能力。新的Omniverse NuRec库引入了光线追踪3D高斯泼溅技术,用于从传感器数据构建模型,而GitHub上提供的更新版Isaac Sim 5.0和Isaac Lab 2.2框架则增加了神经渲染和新的基于OpenUSD的机器人和传感器模式。NuRec渲染已集成到CARLA自动驾驶汽车模拟器中,并被Foretellix等公司采用,用于生成合成AV测试数据。Voxel51的FiftyOne数据引擎,被福特(Ford)和保时捷(Porsche)等汽车制造商使用,现在也支持NuRec。这些库和框架的著名采用者包括波士顿动力(Boston Dynamics)、Figure AI、Hexagon和亚马逊设备与服务(Amazon Devices & Services)。

Cosmos世界基础模型(WFMs)的下载量已超过两百万次,主要用于利用文本、图像或视频提示为机器人生成合成训练数据。新的Cosmos Transfer-2模型显著加速了从仿真场景和深度图等空间输入生成图像数据的过程,Lightwheel、Moon Surgical和Skild AI等公司已在利用它进行大规模训练数据生产。英伟达还推出了Cosmos Reason,一个70亿参数的视觉语言模型,旨在通过将先验知识与对物理的理解相结合来赋能机器人和AI代理。该模型可以自动化数据集整理、支持多步骤机器人任务规划,并增强视频分析系统。英伟达自己的机器人和DRIVE团队利用Cosmos Reason进行数据过滤和标注,而优步(Uber)和麦格纳(Magna)已将其部署在自动驾驶汽车、交通监控和工业检测系统中。

对于大规模AI代理部署,RTX PRO服务器能够运行新发布的Llama Nemotron Super模型。当在单个RTX PRO 6000 GPU上以NVFP4精度运行时,这些服务器与使用英伟达H100 GPU的FP8精度相比,可提供高达三倍的性价比优势,这突显了它们在要求严苛的AI工作负载中的效率。