GoogleのGenie 3 AIがリアルタイムでプレイ可能な世界を生成

Beehiiv

Google DeepMindは、リッチでインタラクティブな環境をリアルタイムで生成できる革新的な汎用世界モデル「Genie 3」を発表しました。このブレイクスルーにより、AIエージェントや人間ユーザーが探索するにつれて動的に進化するプレイ可能な世界を作成できるようになり、AIトレーニングとデジタルエンターテイメントにとって大きな前進となります。

単一のテキストプロンプトから、Genie 3は一貫した周囲環境とキャラクターを備えたユニークな720p環境を構築できます。これらの生成された世界は現実世界の物理法則に準拠しており、新しいビジュアルが滑らかな毎秒24フレームで出現します。このモデルは、1分間の視覚記憶を活用して、その後の瞬間をシミュレートしつつ、以前のコンテンツとの連続性を確保することで、シーン間の視覚的一貫性を維持します。Googleは、Genieが過去のインタラクションから関連情報を毎秒複数回継続的に計算することで、この高いレベルの制御性を達成していると述べています。さらに、ユーザーは受動的な探索に限定されず、環境を積極的に変更したり、新しいキャラクターやオブジェクトを導入したり、ナビゲートしながら世界の基本的なダイナミクスを変更したりすることもできます。

Genie 3の一貫したユーザー応答型世界生成能力の開発は、ゲームの枠を超えています。これは、身体性AIのスケーラブルなトレーニングのための重要な基盤を確立します。これにより、インテリジェントな機械は、パスが突然消えるなどの複雑で予測不可能なシナリオにリアルタイムでナビゲートし、適応する方法を学び、人間の適応性を模倣することができます。

AIコミュニティにとって重要な動きとして、OpenAIは待望のオープンウェイト推論大規模言語モデル(LLMs)であるgpt-oss-120bとgpt-oss-20bをリリースしました。Apache 2.0ライセンスの下でローカル展開が可能で、これらのモデルは2019年のGPT-2以来、OpenAI初のオープンLLMリリースとなります。リリースされるやいなや、Hugging Face上の数百万のモデルの中で急速にトップランキングに浮上し、その即座のインパクトを示しました。より大きなgpt-oss-120bバリアントは、主要なベンチマークでOpenAI独自のo4-miniモデルと同等の性能を示し、特定の領域ではそれを上回ることさえあり、80GB GPUで展開可能です。よりコンパクトなgpt-oss-20bバージョンは、o3-miniに対して競争力のある機能を提供し、わずか16GBのメモリを搭載したラップトップでのローカル展開に適しています。両モデルは調整可能な推論能力(高、中、低)を備えており、関数呼び出し、ウェブ検索統合、Python実行などの高度なエージェントワークフローを促進できます。このリリースは画期的な瞬間と見なされており、OpenAIは開発者に多様な環境で実行および変更できる最先端に近い推論モデルへのアクセスを提供することで、その本来の使命を受け入れているようです。この動きは、プロプライエタリモデルとの性能差を急速に縮めてきたオープンソースAIエコシステムを大幅に強化すると予想されます。

一方、Anthropicは、フラッグシップモデルであるOpus 4に対する漸進的でありながら影響力のあるアップグレードであるClaude Opus 4.1を発表しました。このアップデートは、実世界のコーディング、詳細な調査、複雑なデータ分析など、さまざまな要求の厳しいタスクにおいて顕著なパフォーマンス向上をもたらし、特に細部への綿密な注意とエージェント的なアクションが必要なシナリオで威力を発揮します。Claude Opus 4.1はコーディングにおいて顕著な改善を示し、SWE-bench Verifiedベンチマークでのパフォーマンスは72.5%から74.5%に上昇しました。数学、エージェント型ターミナルコーディング(TerminalBench)、一般推論(GPQA)、視覚推論(MMMU)の各ベンチマークでもさらなる進歩が観察されています。顧客からの初期フィードバックによると、このモデルは複数ファイルのコードリファクタリングや大規模なコードベース内での相関関係の特定など、実用的なアプリケーションで優れていることが示されています。このアップグレードは有料ユーザーおよび企業が利用でき、Anthropicはこれを将来のモデルで計画されている「大幅な改善」の先駆けと位置付けています。このリリースは、特にAIコミュニティが他の主要なプレーヤーからの潜在的な新しいリリースを期待している中で、大規模言語モデルの競争環境に貢献します。

これらの主要な発表以外にも、いくつかの開発がAIの状況を形成しています。ElevenLabsは、ジャンル、スタイル、構造の制御に加え、サウンドと歌詞の両方を編集するオプションを提供する多言語音楽生成モデル「Eleven Music」を発表しました。GoogleはGeminiアプリに新しい「ストーリーブック」機能を追加し、ユーザーがパーソナライズされたストーリーブックを無料で生成・ナレーションできるようにしました。AI検索会社Perplexityは、マルチエージェントオーケストレーションプラットフォームを専門とするInvisibleを買収し、Cometブラウザをより広範な消費者および企業向けにスケールアップすることを目指しています。イーロン・マスクは、Grokの「Imagine」画像およびビデオジェネレーターへの大きな関心を報告し、1日で2000万枚の画像が作成されたと述べました。中国では、アリババがAPIを通じて「Flash」シリーズのQwen3-CoderおよびQwen3-2507モデルをリリースしました。これらは最大100万トークンという印象的なコンテキストウィンドウと競争力のある価格設定を特徴としています。最後に、Shopifyはプラットフォームに新しいエージェント中心の機能を統合しました。これには、AIエージェントに商取引ウィジェットを埋め込むためのチェックアウトキット、低遅延のグローバル製品検索、ユニバーサルカートシステムが含まれ、eコマースにおけるAIの役割を強化しています。

GoogleのGenie 3 AIがリアルタイムでプレイ可能な世界を生成 - OmegaNext AIニュース