Google、Genie 3を発表:ロボット向けAI世界モデルの画期的な進化
Google DeepMindは、これまでで最新かつ最も現実的なAI世界モデルであるGenie 3を発表しました。これは、自律エージェントとロボット向けのリアルなトレーニングシミュレーションの開発における大きな飛躍を意味します。この高度なシステムは、シンプルなテキストプロンプトから直接、動的でインタラクティブな3D仮想環境を生成するように設計されており、AIがリアルタイムでシミュレートできる限界を押し広げています。
Genie 3は、720pの解像度で毎秒24フレームで動作し、数分間視覚的および物理的な一貫性を維持するナビゲーション可能な世界を作成することで際立っています。重要な革新は、その「世界記憶」であり、モデルが過去の行動やオブジェクトの配置を最大1分間記憶できるため、より一貫性のある没入型の体験が保証されます。ユーザーは、追加のテキストプロンプトを使用してこれらのシミュレートされた環境を動的に変更できます。たとえば、スキー場に鹿の群れを導入したり、気象条件を瞬時に変更したりできます。この機能は、水の流れや照明などの複雑な物理特性のモデリング、自然生態系、アニメーションシナリオ、さらには架空の設定のシミュレーションにまで及びます。Genie 1とGenie 2の先行モデルを基盤として、この第3世代はリアルタイムインタラクションを大幅に強化し、GoogleのVeo 3ビデオジェネレーターの技術を組み込んで、直感的な物理学のより深い理解を実現しています。
Genie 3の主な応用は、ロボットとAIエージェントのトレーニングを革新することにあります。これらのインテリジェントシステムを現実世界でトレーニングすることは、多くの場合、法外な費用がかかり、時間がかかり、潜在的に危険です。Genie 3は、AIエージェントが環境がどのように進化し、その行動がどのように影響するかを予測することを学ぶことができる、豊富でシミュレートされた環境の無限のカリキュラムを提供し、ロボット工学、自動運転車、その他の具現化されたAI研究の開発を効果的に加速します。Google DeepMindは、Genie 3のような世界モデルを、人工汎用知能(AGI)の達成に向けた重要な足がかりと見なしています。AGIは、システムが幅広いドメインで人間と同等のレベルでタスクを実行できる、仮説上のAIレベルです。
AIトレーニングにおける主要な有用性以外にも、Genie 3は人間中心のアプリケーションにも期待を寄せています。仮想スキーや山岳湖の探索から、山岳救助やベースジャンピングのような重要な現実世界のシナリオの練習まで、さまざまな体験のための没入型シミュレーションを提供できます。これらすべては安全なシミュレートされた環境で行われます。この技術は、次世代のゲームやエンターテイメントを変革し、シンプルなテキストコマンドから動的で物理ベースの世界を作成することも可能にします。潜在的な将来のアプリケーションは、災害対策、緊急訓練、農業、製造、科学的な「デジタルツイン」の作成など、さまざまな産業に及びます。
その印象的な機能にもかかわらず、Genie 3はまだ一般公開の準備ができておらず、現在、一部の学者やクリエイター向けに限定的な研究プレビューとして利用可能です。Google DeepMindは、エージェントの「アクションスペース」の制約、複雑なマルチエージェントインタラクションの正確なモデリングにおける課題、完璧な地理的精度で現実世界の場所をシミュレートできないことなど、いくつかの制限を認めています。以前のバージョンよりも安定していますが、その一貫性は現在数分しか維持されず、初期プロンプトで明示的に提供されない限り、明確なテキストをレンダリングするのに苦労しています。これらの領域は継続的な研究課題であり、同社は安全性と責任に関する懸念に対処するために、展開に対して慎重なアプローチを取っています。Genie 3の発表は、他の業界プレーヤーも生成AIや世界モデルで大きな進歩を遂げている、競争の激しいAI環境の中で行われました。