腾讯AI:图像变身互动游戏视频,实时操控新体验
腾讯发布了混元-GameCraft,这是一个先进的人工智能系统,旨在将静态图像转换为互动游戏视频。这个创新平台与传统视频生成器不同,后者通常生成固定片段,而混元-GameCraft则赋予用户实时摄像机控制能力。玩家可以使用WASD或方向键等标准键盘输入自由导航生成的场景,在AI渲染的环境中体验动态移动。该系统基于腾讯的开源文本到视频模型混元视频(HunyuanVideo)构建,并经过专门设计,旨在提供异常平滑和一致的摄像机运动。
该框架支持全面的摄像机运动范围,包括三个平移轴——前进/后退、左/右、上/下——以及两个旋转轴用于环顾四周。值得注意的是,摄像机翻滚(roll)功能被特意省略,腾讯强调这是大多数游戏中不常见的。其互动性的关键是一个“动作编码器”,它将键盘输入转换为视频生成器可以解释的数值。该编码器还考虑了按键的持续时间,从而实现自适应的移动速度。
为了在长时间序列中保持高视频质量,GameCraft采用了一种名为“混合历史条件训练”(Hybrid History-Conditioned Training)的复杂训练技术。该模型不是试图一次性生成整个视频,而是逐步构建每个新的视频片段,并利用先前生成的片段。视频被细分为大约1.3秒的块。系统中的“二进制掩码”区分了每帧中已存在的部分和仍需要生成的部分,从而在一致性和灵活性之间取得了平衡。腾讯表示,这种混合方法克服了通常与无训练方法相关的明显质量下降,以及纯历史条件训练中响应性降低的问题,从而生成了既流畅又一致,同时即使在长时间会话中也能即时响应用户输入的视频。
混元-GameCraft的卓越能力源于其庞大的训练数据集,该数据集包含来自100多个AAA级游戏的超过一百万个游戏录像,其中包括广受好评的游戏,如《刺客信条》、《荒野大镖客:救赎》和《赛博朋克2077》。在这个庞大的收集中,场景和动作经过精心分割、质量过滤、标注,并结构化了详细描述。开发人员通过从数字3D对象创建额外的3000个运动序列,进一步丰富了数据集。训练过程本身是一项艰巨的任务,分两个阶段进行,使用了192块Nvidia H20 GPU,历经50,000次迭代。
在面对面的性能评估中,混元-GameCraft表现出卓越的成果。与Matrix-Game相比,它将交互错误减少了55%,并且比CameraCtrl、MotionCtrl和WanX-Cam等专用摄像机控制模型提供了更强的图像质量和更精确的控制。
为了确保该系统在实时互动体验中的实用性,腾讯整合了分阶段一致性模型(Phased Consistency Model, PCM)。这项创新通过允许系统跳过典型扩散过程的中间步骤,直接跳到可信的最终帧,从而显著加快了视频生成速度。这种优化将推理速度提高了10到20倍,使GameCraft能够实现每秒6.6帧的实时渲染速率,用户输入响应时间保持在五秒以内。在内部,该系统以每秒25帧的速度运行,以720p分辨率处理33帧的视频片段,从而在速度和视觉保真度之间取得了对互动控制至关重要的平衡。
混元-GameCraft的完整代码和模型权重已在GitHub上公开,并且一个网络演示正在开发中。这一进展使腾讯处于互动AI世界模型快速发展领域的前沿,与Google DeepMind的Genie 3和Skywork的开源Matrix-Game 2.0等著名系统竞争。它也代表了腾讯早期工作(如混元世界模型1.0,该模型可以生成3D场景但仅限于静态全景图)的重大进步,突显了互动AI体验的显著飞跃。