DeepMindのGenie 3:リアルタイム世界モデルでAGIへの足がかりを築く

Techcrunch

Google DeepMind は、その最新の「基盤世界モデル」であるGenie 3を発表しました。AIラボはこれを、汎用人工知能(AGI)、すなわち人間レベルの知能達成に向けた重要な進歩と位置付けています。

DeepMind の研究ディレクターであるシュロミ・フルフター氏は、記者会見でGenie 3が「初のリアルタイムインタラクティブ汎用世界モデル」であると述べました。彼は、これまでのより専門的なモデルからの脱却を強調し、写真のようにリアルな世界から完全に想像上の世界まで、多様な環境を生成する能力を指摘しました。

Genie 3は現在、研究プレビュー段階にあり、一般には公開されていませんが、先行モデルの機能を統合しています。AIエージェント向けに新しい環境を生成できたGenie 2と、物理学の深い理解で知られるDeepMindの高度な動画生成モデルVeo 3に基づいて構築されています。

Genie 3は、シンプルなテキストプロンプトを使用するだけで、数分間実行可能なインタラクティブな3D環境を作成できます。これはGenie 2で達成できた10〜20秒から大幅な飛躍です。これらのシミュレーションは720pの解像度と毎秒24フレームでレンダリングされます。「プロンプト可能な世界イベント」という注目すべき機能により、ユーザーはテキストコマンドを通じて生成された環境を動的に変更できます。

重要なことに、Genie 3のシミュレーションは時間とともに物理的な一貫性を維持します。これは、モデルが以前に生成したものを「記憶する」という創発的な能力に起因しており、DeepMindの研究者はこの機能を明示的にプログラムしていませんでした。この自己学習による物理学の理解がその設計の中核です。ハードコードされた物理エンジンに依存するシステムとは異なり、Genie 3は、自身が生成したシーケンスを観察し、長期間にわたって推論することで、オブジェクトがどのように動き、落下し、相互作用するかを学習します。フルフター氏は、このモデルは「自己回帰的」であり、一度に1フレームを生成し、以前のフレームを参照して後続のイベントを予測すると説明しました。これはそのアーキテクチャの基本的な側面です。この記憶が、人間のような物理法則の直感的な理解を可能にする一貫性を育みます。

Genie 3は教育、ゲーム、クリエイティブなプロトタイピングにおける応用が期待されますが、その主な重要性は、汎用タスクのためのAIエージェントの訓練にあります。これはAGI達成のための重要な要素です。DeepMindのオープンエンドネスチームの研究科学者であるジャック・パーカーホルダー氏は、複雑な現実世界のシナリオをシミュレートすることが大きな課題となる具現化されたエージェントにとって、世界モデルが不可欠であると強調しました。

一貫性があり、物理的に妥当な環境を生成する能力は、Genie 3を理想的な訓練場にします。エージェントが探索するための無限に多様な世界を提供し、人間のような学習プロセスを反映して、エージェントが経験を通じて適応し、努力し、学習することを促します。これにより、エージェントは単純な入力反応行動を超え、計画、探索、試行錯誤による学習などの能力を育むことができます。これらは自律的な具現化された知能にとって不可欠です。

これらの進歩にもかかわらず、Genie 3にはまだ限界があります。これらのシミュレートされた世界内でエージェントが実行できるアクションの範囲は依然として制限されており、「プロンプト可能な世界イベント」が環境への介入を可能にする一方で、これらは必ずしもエージェント自身によって開始されるわけではありません。共有環境で複数の独立したエージェント間の複雑な相互作用を正確にモデル化することも課題です。さらに、現在のシステムは数分間の連続的なインタラクションしかサポートしておらず、包括的なエージェント訓練には数時間が必要となるでしょう。

それにもかかわらず、Genie 3は説得力のある一歩前進を意味します。パーカーホルダー氏は、2016年の囲碁の試合でDeepMindのAlphaGoが型破りで brilliantly な「神の一手(Move 37)」を打った瞬間になぞらえ、AIの斬新な戦略能力を象徴しました。彼は、Genie 3も同様に具現化されたAIの新時代を切り開き、エージェントがシミュレートされた世界内で真に斬新な行動を取ることを可能にするだろうと示唆しました。