DeepMindのGenie 3:AGIを目指す新世界モデルが登場
Google DeepMindは、最新の基盤世界モデルであるGenie 3を発表しました。AIラボはこれを、汎用人工知能(AGI)、すなわち人間のような知能の達成に向けた重要な進歩と位置付けています。このモデルは、シミュレートされた環境内で汎用AIエージェントを訓練するために設計されています。
DeepMindの研究ディレクターであるシュロミ・フルフター氏は、最近の記者会見で「Genie 3は、初のリアルタイム対話型汎用世界モデルです」と述べました。彼は、これまでの狭い世界モデルとは異なり、写真のようにリアルなものから純粋に想像上のものまで、多様な環境を生成できる能力を強調しました。
現在、研究プレビュー中で一般には公開されていませんが、Genie 3は、エージェント向けに新しい環境を生成できたGenie 2や、物理学の深い理解で知られるDeepMindの最新動画生成モデルVeo 3など、先行モデルを基盤としています。
Genie 3は能力面で大幅な飛躍を遂げ、簡単なテキストプロンプトから数分間の対話型3D環境を720p解像度、24フレーム/秒で生成できます。これはGenie 2の10~20秒の出力から大幅な改善です。このモデルには「プロンプト可能な世界イベント」も導入されており、ユーザーはテキストコマンドを通じて生成された世界を変更できます。
決定的に重要なのは、Genie 3のシミュレーションが時間の経過とともに物理的な一貫性を維持することです。DeepMindは、モデルが以前に生成したものを「記憶する」この能力が、明示的にプログラムされたものではなく、その設計から自然に生まれたものであると強調しています。
フルフター氏は、Genie 3が教育、ゲーム、クリエイティブなプロトタイピングなどのアプリケーションに有望である一方で、その主な影響は汎用タスクのためのエージェント訓練にあると示唆しました。これはAGIにとって不可欠なステップであると彼は考えています。DeepMindのオープンエンドネスチームの研究科学者であるジャック・パーカー=ホルダー氏もこの意見に賛同し、「世界モデルはAGIへの道、特に具現化されたエージェントにとって鍵となると考えています。実世界のシナリオをシミュレートすることは特に困難だからです」と述べました。
Genie 3は、ハードコードされた物理エンジンに依存しないことでこの課題に対処します。代わりに、DeepMindは、モデルが生成されたシーケンスを記憶し、長期的な時間軸で推論することで、世界がどのように機能するか(オブジェクトがどのように移動し、落下し、相互作用するか)を自ら学習すると説明しています。フルフター氏はさらに詳しく説明しました。「このモデルは自己回帰的であり、一度に1フレームを生成します。次に何が起こるかを決定するために、以前に生成されたものを振り返る必要があります。それがアーキテクチャの重要な部分です。」この固有の記憶により、Genie 3は物理学に対する直感的な理解を深めることができ、これは現実世界のダイナミクスに対する人間の理解に似ています。
DeepMindはまた、Genie 3がAIエージェントを自身の経験から学習させることで、人間の学習を模倣できると信じています。デモンストレーションとして、DeepMindはGenie 3を、スケーラブルな指示可能マルチワールドエージェント(SIMA)の最新バージョンでテストしました。シミュレートされた倉庫で、SIMAは「明るい緑色のゴミ圧縮機に近づく」や「梱包された赤いフォークリフトまで歩く」といった目標を課されました。パーカー=ホルダー氏によると、SIMAエージェントは、エージェントからのアクションを受け取り、シミュレートされた世界を観察し、その中でアクションを実行することで、これらの目標を成功裏に達成し、Genie 3は一貫性を維持しました。
Genie 3には進歩がある一方で、限界もあります。研究者たちは物理学の理解を主張していますが、例えばスキーヤーのデモンストレーションでは、雪の動きを正確に描写できませんでした。エージェントが取れるアクションの範囲は依然として限られており、プロンプト可能な世界イベントは環境介入を提供しますが、これらは必ずしもエージェント自身によって実行されるわけではありません。共有環境で複数の独立したエージェント間の複雑な相互作用をモデル化することも困難であることが判明しています。さらに、Genie 3は現在、数分間の連続的なインタラクションしかサポートしておらず、包括的なエージェント訓練には数時間が必要となります。
それにもかかわらず、Genie 3は説得力のある一歩前進を意味します。それは、エージェントが単純な反応を超えて、計画、探索、不確実性の追求、試行錯誤による改善といった能力を促進することを目指しています。この自己駆動型で具現化された学習は、汎用知能への進歩にとって非常に重要であると広く考えられています。パーカー=ホルダー氏は次のように結論付けました。「具現化されたエージェントが、実際に現実世界で斬新な行動を取ることができる『Move 37』の瞬間はまだ訪れていません。」彼は、2016年の囲碁の試合でDeepMindのAlphaGoが型破りで素晴らしい一手を打ち、AIの斬新な戦略能力を象徴した決定的な瞬間を指しました。「しかし今、私たちは潜在的に新しい時代を切り開くことができます」と彼は付け加えました。