Matrix-Game 2.0:开源AI视频生成器挑战DeepMind
由AI驱动的交互式视频生成领域正在迅速发展,Skywork的新开源模型Matrix-Game 2.0作为重要的竞争者脱颖而出。这项开发为Google DeepMind专有Genie 3最近展示的突破提供了一个强大且公开可用的替代方案,将类似的先进功能带入开源社区。
Matrix-Game 2.0在生成具有出色一致性和实时控制的交互式AI视频方面表现卓越。据Skywork称,该模型能以流畅的每秒25帧生成视频,并在长时间内保持连贯的交互。至关重要的是,它通过键盘和鼠标直接响应用户输入,使用户能够实时导航虚拟世界、穿越场景并对游戏内事件做出反应。该模型的多功能性还体现在其支持各种环境,从广阔的城市景观和宁静的野外场景,到让人联想到流行手机游戏的动态障碍赛道。
支撑这些能力的是Matrix-Game 2.0的自回归扩散架构,它拥有18亿个参数。这种复杂的设计使模型能够完全基于视觉数据和用户操作来预测未来的视频帧。一个专门的“鼠标/键盘到帧”模块将玩家输入直接馈送到每一帧中,使模型能够以卓越的精度动态响应移动和控制命令。为了训练这个复杂的系统,Skywork使用了大约1200小时的交互式视频数据,这些数据来源于Unreal Engine和大型开放世界游戏Grand Theft Auto 5等高保真资源。
尽管Matrix-Game 2.0展示了显著的进步,但其性能最好在其优势和当前局限性的背景下理解。演示显示环境在很大程度上保持一致,视觉效果 unmistakably 唤起了Grand Theft Auto 5的美学。这标志着比早期模型有了显著改进,后者经常难以保持场景连贯性。然而,Matrix-Game 2.0尚未完全达到DeepMind的Genie 3所实现的稳定性;例如,一个演示片段显示,在大约十秒处,一个湖泊和建筑突然出现,取代了山地景观。尽管如此,Skywork声称Matrix-Game 2.0超越了现有开源竞争对手如Oasis,承诺提供更优质的图像质量、更一致的环境以及对用户输入更准确的响应。
Skywork强调的一个关键特性是Matrix-Game 2.0能够跨各种环境进行泛化,而无需进行场景特定调整。该模型可以无缝适应不同的视觉风格和虚拟世界。此外,它促进了物理感知角色运动,允许虚拟代理通过合理的动画与物体及其周围环境进行交互,从而增强了生成内容的真实感。
Matrix-Game 2.0的潜在应用广泛而深远。Skywork设想其在游戏原型制作、模拟环境中训练AI代理以及自动驾驶研究等领域的实用性。该模型还可能对专注于空间智能或虚拟人开发的项目具有宝贵价值。
秉承其开源性质,Matrix-Game 2.0可在Hugging Face和GitHub上免费获取。Skywork将其发布归类为“生产就绪研究”,表明其适合集成到现有开发工作流程中。对于本地部署,该公司提供了一个全面的推理管道,支持FlashAttention和流媒体版本。安装通过标准软件包简化,推理通过易于配置的YAML脚本进行管理。值得注意的是,许多演示场景中与Grand Theft Auto在视觉和结构上的相似性引发了关于AI训练中受版权保护游戏世界的合法使用问题。