英伟达Cosmos Reason:让机器人拥有“人类思维”的生成式AI
英伟达发布了一款生成式AI模型——Cosmos Reason,旨在通过让机器人直观分析周围环境,从而赋予它们类似人类的决策能力。这款于周一公布的创新型视觉语言模型(VLM)能够处理来自视频和图形输入的信息,并利用其理解能力做出与人类常识相符的选择。
英伟达Omniverse和仿真技术副总裁Rev Lebaredian强调,Cosmos Reason帮助机器人“像人类一样思考”,并基于“常识”做出决策。这款轻量级模型仅有70亿参数,但足够灵活,可集成到各种物理设备中。其应用范围从嵌入式摄像头和交通信号灯,到工厂车间的工业仪器,预示着一个未来,正如Lebaredian所预测的:“每一个能看见的智能物联网设备,从摄像头到交通灯,每一个家用或工业机器人,都将拥有推理能力。”
该模型促进了“视频AI代理”的开发,这些代理能够处理从录制视频和直播流中获取的大量数据并采取行动。据Lebaredian称,这些代理将变得无处不在,自动化关键功能,例如交通监控、增强安全协议,以及在从工业设施到整个城市景观的各种环境中优化视频检测流程。
与生成图像、视频或文本的典型基于文本的生成模型不同,Cosmos Reason是一个专门的视觉语言模型。尽管包括OpenAI在内的其他公司也发布了各自的VLM,但英伟达声称Cosmos Reason提供了更深层次的推理能力,尤其是在遇到大量此前未曾见过的场景时。该模型可以建立对情境的基本理解,考虑物理交互,并随后推断场景中物体和参与者之间复杂的联系或动机。至关重要的是,它还具备理解全新经验的能力。
为了说明其实际应用,英伟达提供了一个贴近生活的例子:一个配备Cosmos Reason的机器人将能够理解制作吐司所需的各项要素,例如制作过程需要黄油、烤面包机以及一个盛放成品食物的盘子。
当前的AI机器人模型通常依赖于两项核心技术。VLM组件,如Cosmos Reason,负责解释指令并制定行动计划。这与“视觉语言行动”(vision language action)技术协同工作,后者使机器人能够快速执行并形成一种“肌肉记忆”。
Cosmos Reason已作为开源模型发布,现已可供下载。然而,其功能仅与英伟达的硬件生态系统绑定。该公司专门为机器人应用提供了Jetson Thor DGX计算机,并同时发布了新的专业级GPU。RTX Pro 6000 GPU专为高端服务器设计,而RTX Pro 4000和2000 GPU(均基于先进的Blackwell架构)则专为高端桌面工作站设计。
Cosmos Reason是英伟达Omniverse产品线的战略性补充,该产品线涵盖了其世界构建和仿真工具。Omniverse产品的核心是创建真实物理对象的精确数字孪生表示。这些虚拟环境中生成的丰富数据随后被用于创建合成数据集,这对于训练像Cosmos Reason这样的复杂视觉语言模型至关重要,最终旨在提高工厂、仓库、机器人系统、车辆和其他物理领域的生产力。