DeepMind Genie 3:AIがリアルタイムで一貫性ある3D世界を生成

Decoder

Google DeepMindは、リアルタイムでインタラクティブな3D環境を生成するために設計された新しい「ワールドモデル」であるGenie 3を発表しました。この高度なシステムは、複雑なシナリオのシミュレーションと自律AIエージェントの訓練を目的としており、AI研究における重要な一歩となります。

Genie 3は、シンプルなテキストプロンプトから動的な仮想世界を生成し、ユーザーがこれらの環境を24フレーム/秒、720pの解像度で探索できるようにします。従来のビデオ生成モデルとは異なり、Genie 3は各フレームをシーケンシャルに構築し、最大1分間の以前の環境詳細を考慮に入れます。この独自の自己回帰アプローチは、視覚的および物理的な一貫性を維持するために不可欠であり、生成された世界が「数分間」にわたって一貫性を保つことを可能にします。これは以前のモデルに対する顕著な技術的進歩です。DeepMindは、Genie 3がリアルタイムのインタラクティブ性とこのレベルの長期的な物理的一貫性を環境内で組み合わせた最初のモデルであると強調し、より汎用的なAIシステム(AGI)を開発するための基盤技術として位置付けています。この最新のイテレーションは、Genie 1、Genie 2、およびVeo 2とVeo 3のビデオジェネレーターを含むDeepMindの以前の作業に基づいています。

このモデルは、溶岩、風、雨などの動的な気象効果を持つリアルな風景の生成から、ポータル、浮遊島、アニメーション化された生き物を含む幻想的な設定の作成まで、幅広い創造的な能力を示しています。ベネチアや古代クノッソスのような歴史的な場所を再構築することもできます。ユーザーは、テキストコマンド(「プロンプト可能な世界イベント」として知られる)を入力することでこれらの世界と対話し、気象パターンの変化や新しいオブジェクトの生成などをトリガーできます。このインタラクションは単純なナビゲーションを超え、ユーザーが「もしも」のシナリオを作成し、AIエージェントが予期せぬイベントにどのように反応するかをテストすることを可能にします。

Genie 3の主要な応用の一つは、自律AIエージェントの訓練です。既存の3Dデータに依存するNeRFやガウススプラッティングのような手法とは異なり、Genie 3はテキスト記述とユーザーインタラクションから直接環境を生成し、シミュレーション自体から一貫性が自然に生まれます。これにより、すべての物理法則を事前にプログラムする必要なく、よりオープンエンドで動的なシナリオでAIエージェントを訓練することが可能になります。DeepMindはすでにGenie 3を使用して、生成されたこれらの世界内で自律的にタスクを完了する社内SIMAエージェントをテストしています。この設定では、シミュレーションはエージェントの事前定義された目標ではなく、その行動にのみ反応するため、制御された環境で複雑なタスクシーケンスを容易にし、研究者がAIのパフォーマンスを評価し、弱点を特定するための新しい方法を提供します。

Genie 3は現在、選ばれた研究者やクリエイターに限定された研究プレビューとして提供されています。DeepMindは、このアプローチが潜在的なリスクを早期に特定し、さらなる開発を導くのに役立つと述べています。同社は将来的な応用として、教育、シミュレーション、専門家訓練、特に複雑な現実世界のシナリオで意思決定を行う個人の準備を想定しています。ただし、このモデルには技術的な限界があります。エージェントの行動は現在制限されており、インタラクションは通常数分しか続かず、マルチエージェントシミュレーションはまだ一貫して信頼できるものではありません。さらに、現実世界の場所は地理参照されておらず、読み取り可能なテキストはプロンプトに明示的に含まれている場合にのみ表示されます。

Genie 3は、より高度なエージェント型AIシステムを動かすための「ファウンデーションワールドモデル」を開発するというDeepMindのより広範な目標と一致しています。DeepMindは、Genie 3のようなワールドモデルが「AGIへの道のりの重要な足がかり」であると主張しています。なぜなら、それらはAIエージェントを「豊富なシミュレーション環境の無限のカリキュラム」で訓練することを可能にするからです。この視点は、DeepMindのCEOであるデミス・ハサビス氏も同様に述べており、彼は以前、このようなモデルが、世界の根底にある物理構造をますます捉えることができる汎用人工知能を構築するために不可欠であると説明しています。さらに、DeepMindの研究者であるリチャード・サットンとデビッド・シルバーによる最近の論文は、AI研究における根本的な転換、すなわち静的な人間データで訓練されたシステムから、シミュレーションされた世界での自身の経験から学ぶエージェントへと移行することを提唱しており、Genie 3のようなモデルは、このビジョンをサポートするように設計されています。

Genie 3のようなワールドモデルの出現は、ゲーム開発の未来に対する潜在的な影響についての議論も引き起こしています。DeepMindのデモンストレーションの一部は、商用タイトルの複雑さには欠けるものの、ビデオゲームの初期バージョンに似ています。NVIDIAのAI担当ディレクターであるジム・ファン氏は、Genie 3を彼が「ゲームエンジン2.0」と呼ぶものの先駆けと見ています。ファン氏は、Unreal Engineのような現在のゲームエンジンの複雑な機能が、いつか「データ駆動型の注意重みの塊」によってカプセル化される可能性があると示唆しています。この未来では、これらの重みがゲームコントローラーのコマンドに基づいて「ピクセルの時空間チャンク」を直接アニメーション化し、明示的な3Dアセット、シーングラフ、または複雑なシェーダープログラミングの必要性を排除します。ファン氏は、ゲーム開発が大規模言語モデルの最近のトレンドと同様に、エージェントワークフローと収束し、洗練されたプロンプトエンジニアリングの形に進化すると予測しています。

DeepMind Genie 3:AIがリアルタイムで一貫性ある3D世界を生成 - OmegaNext AIニュース