DeepMindのGenie 3:リアルタイム対話型AI世界モデルが公開
Googleの人工知能研究部門であるDeepMindは、シンプルなプロンプトや画像からリアルタイムで対話型のシミュレーションを生成できる新しい「世界モデル」Genie 3を発表しました。このリリースは、前身のGenie 2の導入からわずか7ヶ月後であり、基盤となるAIモデルの開発の急速なペースを浮き彫りにしています。
Genie 3を使用すると、ユーザーは継続的に生成され、その場で変更できる動的な環境を作成できます。DeepMindはこれらの変更を「プロンプト可能なイベント」と呼んでおり、ユーザーはシミュレーション世界内でオブジェクトを追加または変更したり、気象条件を調整したり、新しいキャラクターを導入したりできます。この機能はゲーム業界に新たなダイナミックなゲームプレイの道を開き、開発者がコンセプトやレベルデザインを検証するのに役立つ可能性を秘めていますが、一部の業界専門家は、このようなツールの即時的な有用性について懐疑的な見方を示しています。
ゲーム作成における明らかな応用を超えて、DeepMindはGenie 3が重要な研究ツールとしての役割を強調しています。ゲームは、その挑戦的で対話的な性質と測定可能な進歩により、AI開発にとって不可欠な環境として長年機能してきました。DeepMindが以前に囲碁やStarCraftなどのゲームを使用してAI能力を進歩させたことがこれを実証しています。世界モデルは、対話型環境をフレームごとに生成することで、このアプローチをさらに発展させます。これらは、「具現化されたエージェント」を含むAIモデルの動作を、現実世界のシナリオを模倣する状況で洗練させるユニークな機会を提供します。汎用人工知能(AGI)の追求における大きな課題は、多様で信頼性の高い訓練データの不足です。研究者が合成データにますます目を向ける中、DeepMindはGenie 3のような世界モデルが不可欠であり、AIエージェントに訓練のための事実上無限の対話型世界へのアクセスを提供できると信じています。
Genie 3は、特に視覚忠実度とリアルタイム性能において、Genie 2からの顕著な飛躍を表しています。ユーザーはキーボード入力を使用してこれらのシミュレーション世界をナビゲートし、720p解像度で毎秒24フレームで体験できます。主要な改善点の1つは、Genie 3の強化された記憶力です。Genie 2が約10秒を超えると視覚的な一貫性に苦労した(チャットボットが文脈を失うのと似ています)のに対し、Genie 3は視覚要素を数分間一貫して維持し、シミュレーションの範囲を大幅に拡大しています。
これらの進歩にもかかわらず、Genie 3には限界がないわけではありません。DeepMindは、数分間の継続性も大きな一歩であると認識していますが、理想的な世界モデルは何時間も継続性を維持するでしょう。このモデルは現在、現実世界の場所をシミュレートすることもできず、ユニークで非決定論的な環境のみを生成します。その結果、典型的なAIの「幻覚」に陥りやすく、時折、不正確な視覚要素を生成することがあります。たとえば、人間の移動のニュアンスが歪められ、不自然に歩くように見える人物が生成されたり、これらのAI生成世界内のテキストは、プロンプトで明示的に指定しない限り、しばしばごちゃ混ぜに表示されたりします。
さらに、AIエージェントとこれらの世界モデルの統合は依然として限られています。環境は現実的な条件で作成できますが、エージェントは現在、単純な動きを超えてシミュレーションを変更するために必要な高度な推論能力を欠いています。DeepMindは、複数のAIエージェントが共有環境内で対話する方法をまだ模索しています。
Genie 3の計算要件は相当なものであり、長い対話型ビデオを高速で効果的にレンダリングします。DeepMindは具体的な消費電力の詳細を明らかにしていないものの、モデルの現在のアクセス制限は、その集中的な処理要件を強調しています。Genie 3は研究ツールとして位置付けられており、その改良を支援するために、選ばれた専門家や研究者のグループに初期アクセスが許可されています。しかし、DeepMindは、最終的にGenie世界モデルへのアクセスをより広範なオーディエンスに拡大する計画を示しています。