NVIDIA重磅发布:端到端AI堆栈与Cosmos模型,赋能机器人新纪元
NVIDIA在SIGGRAPH 2025大会上发布了一整套全新的技术,标志着机器人、自动驾驶汽车和工业应用领域物理AI发展的一次重大飞跃。这个新生态系统涵盖了先进的Cosmos世界模型、强大的Omniverse仿真库以及尖端的基础设施,旨在加速从虚拟训练到真实世界部署的进程。
此次发布的核心是Cosmos世界基础模型,旨在赋予机器人更强的推理能力。其中,Cosmos Reason是一个70亿参数的视觉-语言模型,专为在复杂真实世界场景中运行的智能体而设计。该AI模型拥有先进的空间和时间推理记忆,并对物理定律有内在理解。这些能力使机器人和AI智能体能够在动态环境中精心规划分步行动,这对于数据整理、复杂的机器人规划和详细的视频分析等任务来说是无价的。该模型处理包括视频和激光雷达在内的多种传感器数据,并将其输入到推理引擎中,以决定智能体的后续动作。它支持高级指令解释和细粒度动作生成,模拟人类的导航和操作逻辑。
Cosmos Reason的补充是Cosmos Transfer模型,它显著加速了合成数据集的生成。例如,Cosmos Transfer-2可以从3D仿真场景或空间控制输入中快速创建训练数据,大大减少了通常与生成逼真机器人训练数据相关的成本和时间。这对于强化学习和策略模型验证特别有利,在这些场景中,大规模模拟边缘案例、多变光照和多样天气条件的需求至关重要。经过优化的“蒸馏传输变体”(Distilled Transfer Variant)进一步提高了速度,使开发人员能够以前所未有的敏捷性迭代数据集创建。Cosmos世界基础模型系列本身提供了多功能性,涵盖Nano、Super和Ultra类别,参数数量从40亿到140亿不等,允许针对特定的延迟、保真度和用例进行微调,从实时流媒体到照片级渲染。
NVIDIA的Omniverse平台也获得了重大更新,引入了对创建逼真虚拟训练环境至关重要的全新仿真和渲染库。神经重建库(Neural Reconstruction Libraries)现在使开发人员能够导入传感器数据,并利用先进的渲染技术以逼真的照片级效果在3D中渲染物理世界。通过新的转换工具和渲染功能,与OpenUSD和CARLA模拟器的增强集成旨在标准化复杂的仿真工作流,促进Mujoco和NVIDIA基于USD的管道等各种机器人框架之间的无缝互操作性。此外,新的SimReady材料库提供了数千种基底材料,显著提高了机器人训练和仿真的保真度。NVIDIA的专用仿真引擎Isaac Sim 5.0.0也得到了升级,增强了执行器模型,扩展了Python和ROS支持,并改进了神经渲染,以生成更优质的合成数据。
为了支持这些先进的模型和仿真,NVIDIA推出了专为机器人工作流打造的基础设施。RTX Pro Blackwell服务器提供了一个统一的架构,针对机器人开发中要求严苛的仿真、训练和推理任务进行了优化。此外,DGX Cloud提供了一个可扩展的、基于云的解决方案,用于管理物理AI工作流,使团队能够随时随地远程开发、训练和部署AI智能体。
业界已迅速认识到这些创新的潜力。包括Amazon Devices、Agility Robotics、Figure AI、Uber和Boston Dynamics在内的领先公司,已经在试用Cosmos模型和Omniverse工具。他们正在利用这些技术生成关键训练数据、构建数字孪生,并加速机器人技术在制造、运输和物流领域的部署。NVIDIA已通过其API和开发者目录广泛提供Cosmos模型,并提供了一个支持研究和商业应用的宽松许可。
NVIDIA的愿景清晰:物理AI代表着一个全面的、全栈的挑战。通过提供更智能的模型、更丰富的仿真能力和可扩展的基础设施,NVIDIA旨在弥合虚拟训练与真实世界部署之间的关键差距。这种集成方法有望显著减少机器人开发中代价高昂的试错,为智能体和机器人释放前所未有的自主水平。