DeepMind、Genie 3を発表:テキストから3Dのインタラクティブな世界モデル

Infoq

DeepMindは、テキストプロンプトから直接インタラクティブな3D環境を生成するために設計された革新的なフレームワークの最新版であるGenie 3を発表しました。この高度なシステムは、720p解像度で毎秒約24フレームでリアルタイムにシーンをレンダリングし、ユーザーはシーンをリセットすることなく、これらのデジタル世界内で数分間連続してナビゲートおよびインタラクトできます。以前のバージョンからの重要な強化点は、その洗練されたオブジェクト永続性です。オブジェクトの移動、削除、変更など、環境へのあらゆる変更が時間とともに維持されます。さらに、このモデルは、個別のメモリモジュールに依存するのではなく、学習された世界のダイナミクスを通じて一貫した物理を維持します。

Genie 3は、コンテンツ作成システムとシミュレーションプラットフォームの機能をシームレスに統合しています。自然言語の記述からユニークな環境を生成し、同時に自律エージェントのテストグラウンドとして機能できます。その驚くべき柔軟性により、屋内の工業レイアウトから広大な屋外の自然地形、複雑な障害物コースまで、すべてテキストから純粋に生成された多様な設定を呼び出すことができます。この機能により、Genie 3は、特にロボティクスや具現化AIの分野におけるトレーニングシナリオの迅速なプロトタイピングに非常に適しています。これらの分野では、汎用的なスキルの開発には多様で動的な仮想世界が求められます。

このプロシージャル生成機能は、Genie 3を他の著名な生成AIシステムと一線を画しています。例えば、OpenAIのSoraは、テキスト記述から非常にリアルなビデオを生成するのに優れていますが、固定長のクリップに限定されており、リアルタイムインタラクションをサポートしていません。MetaのHabitatは、主に具現化AIの研究に焦点を当てており、エージェントがナビゲーションや操作タスクを実行するための高忠実度3D空間を提供しますが、Habitatはプロンプトからプロシージャルに生成するのではなく、事前に定義されたシーンとアセットを必要とします。同様に、NVIDIAのIsaac Simは、詳細なセンサーモデリングと物理を備えた高度なロボティクスシミュレーションを提供しますが、手動で構築またはインポートされた環境にも依存します。Minecraftのメカニクスに基づいて構築されたMineDojoでさえ、AIエージェントがプロシージャルに生成された世界で動作することを可能にしますが、そのブロックベースのビジュアルと固有のゲームメカニクスは、そのリアリズムと物理的精度を制限します。

Unreal EngineやUnityのような従来のシミュレーションエンジンは、カスタム環境を作成するための広範なツールを提供しますが、通常、広範なアセットライブラリと細心の注意を払った手動でのシーンアセンブリが必要です。Genie 3は、オンデマンドで環境を生成することでこれを回避し、より合理化されたアプローチを提供します。ただし、現在の制限には、専用のゲームエンジンで細心の注意を払って作成された環境と比較して、生成できる環境の実行時間と全体的な複雑さが含まれます。

オンラインコミュニティからの初期の反応は、この技術の未来的な魅力を強調しています。Redditのr/singularityのユーザーは畏敬の念を表明し、あるコメント投稿者はGenie 3を見ることは「純粋なSF」であり、「スタートレックの物」に似ていると感じるだろうと述べました。別のユーザーは、その即座の可能性を予見し、「これをVRに接続すれば、これは基本的にメタバースだ」と述べました。これらの感情は、Genie 3がインタラクティブなデジタル体験の領域で解き放つ可能性のある深い影響と想像力を浮き彫りにしています。