テンセントAI、画像をインタラクティブなゲーム動画に変身

Decoder

テンセントは、静止画像をインタラクティブなゲーム動画に変換するために設計された、高度な人工知能システム「Hunyuan-GameCraft」を発表しました。この革新的なプラットフォームは、通常固定されたクリップを生成する従来の動画生成器とは異なり、ユーザーにリアルタイムのカメラ制御を可能にします。プレイヤーはWASDキーや矢印キーなどの標準的なキーボード入力を使用して、生成されたシーンを自由に移動し、AIがレンダリングした環境でダイナミックな動きを体験できます。このシステムは、テンセントのオープンソースのテキストから動画へのモデルである「HunyuanVideo」を基盤として構築されており、特に非常に滑らかで一貫したカメラの動きを提供するように設計されています。

このフレームワークは、前方/後方、左/右、上/下への3つの並進軸、そして周囲を見回すための2つの回転軸を含む、広範囲なカメラの動きをサポートしています。注目すべきは、カメラのロール(傾き)機能が意図的に省略されている点であり、テンセントはこれがほとんどのゲームでは珍しい設計選択であると強調しています。そのインタラクティブ性の鍵は、「アクションエンコーダー」にあります。これはキーボード入力を、動画生成器が解釈できる数値に変換します。このエンコーダーは、キーを押す時間の長さも考慮に入れ、適応的な移動速度を可能にします。

長時間のシーケンスで高い動画品質を維持するため、GameCraftは「ハイブリッド履歴条件付き学習(Hybrid History-Conditioned Training)」として知られる洗練された学習技術を採用しています。このモデルは、一度に動画全体を生成しようとするのではなく、以前に生成されたセグメントを利用して、新しい動画セグメントを段階的に構築します。動画は約1.3秒のチャンクに分割されます。システム内の「バイナリマスク」は、各フレームの既存部分とまだ生成する必要がある部分を区別し、一貫性と柔軟性のバランスを取ります。テンセントは、このハイブリッドアプローチが、学習なしの方法によく見られる目に見える品質低下や、純粋な履歴条件付けに見られる応答性の低下を克服し、長時間のセッション中でもユーザー入力に即座に反応し、流動的で一貫した動画を生成すると述べています。

Hunyuan-GameCraftの驚くべき機能は、その広範なトレーニングデータセットに根ざしています。これには、『アサシン クリード』、『レッド・デッド・リデンプション』、『サイバーパンク2077』など、批評家から高く評価されたゲームを含む100以上のAAAタイトルから収集された100万を超えるゲームプレイ録画が含まれています。この膨大なコレクション内で、シーンとアクションは綿密にセグメント化され、品質のためにフィルタリングされ、注釈が付けられ、詳細な説明とともに構造化されました。開発者はさらに、デジタル3Dオブジェクトから派生した3,000の追加モーションシーケンスを作成することで、データセットを豊かにしました。トレーニングプロセス自体も大規模な事業であり、192台のNvidia H20 GPUを使用して2段階で実施され、50,000回の反復に及びました。

直接的な性能評価において、Hunyuan-GameCraftは優れた結果を示しました。Matrix-Gameと比較してインタラクションエラーを55%削減し、CameraCtrl、MotionCtrl、WanX-Camなどの特殊なカメラ制御モデルよりも画質を向上させ、より正確な制御を実現しました。

リアルタイムのインタラクティブ体験におけるシステムの実用性を確保するため、テンセントは「フェーズド・コンシステンシー・モデル(Phased Consistency Model, PCM)」を統合しました。この革新により、システムが典型的な拡散プロセスの途中段階をスキップし、直接もっともらしい最終フレームにジャンプできるため、動画生成が大幅に加速されます。この最適化により推論速度が10〜20倍向上し、GameCraftは毎秒6.6フレームのリアルタイムレンダリングレートを達成し、ユーザー入力応答時間は5秒未満に抑えられます。内部的には、システムは毎秒25フレームで動作し、720p解像度で33フレームのセグメントで動画を処理することで、インタラクティブ制御に不可欠な速度と視覚的忠実度の間の重要なバランスを取っています。

Hunyuan-GameCraftの完全なコードとモデルの重みはGitHubで公開されており、Webデモンストレーションも現在開発中です。この開発により、テンセントはインタラクティブAI世界モデルという急速に進化する分野の最前線に位置付けられ、Google DeepMindのGenie 3やSkyworkのオープンソースMatrix-Game 2.0などの注目すべきシステムと競合しています。また、テンセントの以前の作業であるHunyuan World Model 1.0(3Dシーンを生成できたものの、静的なパノラマに限られていた)からの大きな進歩を表しており、インタラクティブAI体験における顕著な飛躍を強調しています。