Matrix-Game 2.0:オープンソースAI動画生成器がDeepMindに挑戦

Decoder

AI駆動型インタラクティブ動画生成の分野は急速に進化しており、Skyworkの新しいオープンソースモデル「Matrix-Game 2.0」が重要な競合として登場しました。この開発は、Google DeepMindの独自のGenie 3が最近披露したブレークスルーに対する堅牢で公開された代替手段を提供し、同様の高度な機能をオープンソースコミュニティにもたらします。

Matrix-Game 2.0は、印象的な一貫性とリアルタイム制御を備えたインタラクティブなAI動画の生成に優れています。Skyworkによると、このモデルは1秒あたり25フレームの滑らかな速度で動画を生成でき、長期間にわたって一貫したインタラクションを維持します。重要なのは、キーボードとマウスを介したユーザー入力に直接応答し、ユーザーが仮想世界をナビゲートしたり、シナリオを横断したり、ゲーム内のイベントにリアルタイムで反応したりできることです。モデルの多様性は、広大な都市景観や穏やかな荒野のシーンから、人気のあるモバイルゲームを彷彿とさせるダイナミックな障害物コースまで、幅広い環境をサポートすることでさらに実証されています。

これらの機能を支えるのは、18億のパラメーターを誇るMatrix-Game 2.0の自己回帰拡散アーキテクチャです。この洗練された設計により、モデルは視覚データとユーザーアクションのみに基づいて将来の動画フレームを予測できます。特殊な「マウス/キーボードからフレームへ」モジュールは、プレイヤーの入力を各フレームに直接供給し、モデルが動きや制御コマンドに驚くべき精度で動的に応答できるようにします。この複雑なシステムをトレーニングするために、SkyworkはUnreal Engineや広大なオープンワールドゲームGrand Theft Auto 5などの高忠実度ソースから、約1,200時間のインタラクティブ動画データを利用しました。

Matrix-Game 2.0は著しい進歩を示していますが、そのパフォーマンスは、その強みと現在の限界の文脈で最もよく理解できます。デモは、大部分が一貫した環境を明らかにしており、ビジュアルはGrand Theft Auto 5の美学を紛れもなく呼び起こします。これは、シーンの一貫性を維持するのに頻繁に苦労した以前のモデルに比べて顕著な改善を示しています。しかし、Matrix-Game 2.0はDeepMindのGenie 3が達成した安定性にはまだ完全に及んでいません。例えば、デモクリップでは、10秒あたりで山岳風景が突然湖と建物に置き換わる様子が示されています。それにもかかわらず、SkyworkはMatrix-Game 2.0がOasisのような既存のオープンソース競合他社を凌駕し、優れた画質、より一貫した環境、およびユーザー入力へのより正確な応答を約束すると主張しています。

Skyworkが強調する主要な機能の1つは、Matrix-Game 2.0がシーン固有のチューニングを必要とせずに、さまざまな環境にわたって一般化できる能力です。このモデルは、異なる視覚スタイルや仮想世界にシームレスに適応できます。さらに、物理的に認識されたキャラクターの動きを促進し、仮想エージェントがもっともらしいアニメーションを通じてオブジェクトや周囲と対話できるようにすることで、生成されるコンテンツのリアリズムを高めます。

Matrix-Game 2.0の潜在的な用途は多様で広範囲にわたります。Skyworkは、ゲームのプロトタイピング、シミュレートされた環境内でのAIエージェントのトレーニング、自動運転の研究などの分野での有用性を想定しています。このモデルは、空間知能や仮想人間の開発に焦点を当てたプロジェクトにとっても非常に貴重であることが証明される可能性があります。

オープンソースの性質に忠実に、Matrix-Game 2.0はHugging FaceとGitHubで無料で利用できます。Skyworkは、そのリリースを「本番環境対応の研究」と分類しており、既存の開発ワークフローへの統合に適していることを示しています。ローカル展開の場合、同社はFlashAttentionサポートとストリーミングバージョンを含む包括的な推論パイプラインを提供しています。インストールは標準パッケージを通じて合理化され、推論は簡単に設定可能なYAMLスクリプトを介して管理されます。多くのデモシーンにおけるGrand Theft Autoとの視覚的および構造的類似性は、AIトレーニングにおける著作権で保護されたゲーム世界の合法的な使用に関して関連する疑問を提起していることに注意する価値があります。