NvidiaのCosmos Reason:人間のようなロボットの意思決定を実現する生成AI
Nvidiaは、ロボットに人間のような意思決定能力を付与するため、周囲の状況を直感的に分析できるように設計された生成AIモデル「Cosmos Reason」を発表しました。月曜日に発表されたこの革新的な視覚言語モデル(VLM)は、ビデオやグラフィック入力からの情報を処理し、その理解を活用して人間の常識を反映した選択を行います。
NvidiaのOmniverseおよびシミュレーション技術担当副社長であるレブ・レバディアン氏は、Cosmos Reasonがロボットが「人間のように考え」、そして「常識」に基づいて意思決定をするのに役立つと強調しました。わずか70億パラメータを持つこの軽量モデルは、幅広い物理デバイスへの統合に十分な汎用性を持っています。その応用範囲は、組み込みカメラや交通信号から工場の産業機器にまで及び、レバディアン氏が予測するように、「カメラから信号機まで、あらゆるスマートIoTデバイス、あらゆる家庭用または産業用ロボットが推論能力を持つ」未来を示唆しています。
このモデルは、「ビデオAIエージェント」の開発を促進し、録画されたビデオとライブストリームの両方から得られる膨大な量のデータに基づいて行動することができます。レバディアン氏によると、これらのエージェントは遍在するようになり、交通監視、安全プロトコルの強化、産業施設から都市全体に至るまで、多様な環境でのビデオ検査プロセスの改善といった重要な機能を自動化する準備が整っています。
画像、ビデオ、テキストを生成する一般的なテキストベースの生成モデルとは異なり、Cosmos Reasonは専用の視覚言語モデルです。OpenAIを含む他の企業も独自のVLMをリリースしていますが、NvidiaはCosmos Reasonが、特にこれまで見たことのない広範なシナリオに遭遇した場合に、より深いレベルの推論を提供すると主張しています。このモデルは、状況の基本的な理解を構築し、物理的な相互作用を考慮に入れ、その後、シーン内のオブジェクトやアクター間の複雑な関係や動機を推論することができます。重要なことに、それは全く新しい経験を理解する能力も持っています。
その実用的な応用を説明するために、Nvidiaは身近な例を挙げました。Cosmos Reasonを搭載したロボットは、トーストを作るために必要な要素を結びつけることができます。例えば、このプロセスにはバター、トースター、そして完成した食べ物を盛り付けるための皿が必要であることを理解します。
現在のAIロボットモデルは、通常2つのコア技術に依存しています。Cosmos ReasonのようなVLMコンポーネントは、指示を解釈し、行動計画を策定する役割を担います。これは「視覚言語行動(vision language action)」技術と連携して機能し、ロボットの迅速な実行を可能にし、一種の筋肉記憶を植え付けます。
Cosmos Reasonはオープンソースモデルとしてリリースされ、現在ダウンロード可能です。ただし、その機能はNvidiaのハードウェアエコシステムにのみ関連付けられています。同社はロボットアプリケーション向けにJetson Thor DGXコンピューターを提供しており、同時に新しいプロフェッショナルグレードGPUを発表しました。RTX Pro 6000 GPUはハイエンドサーバー向けであり、RTX Pro 4000および2000 GPUは、すべて高度なBlackwellアーキテクチャに基づいて構築されており、ハイエンドデスクトップワークステーション向けに設計されています。
Cosmos Reasonは、NvidiaのOmniverse製品ラインへの戦略的な追加であり、その世界構築およびシミュレーションツールを包含しています。Omniverse製品は、現実世界の物理オブジェクトの正確なデジタルツイン表現を作成することに重点を置いています。これらの仮想環境で生成された豊富なデータは、合成データセットの作成に利用され、Cosmos Reasonのような洗練された視覚言語モデルのトレーニングに不可欠であり、最終的には工場、倉庫、ロボットシステム、車両、その他の物理領域全体での生産性向上を目指しています。