Skywork UniPic 2.0 开源：统一多模态AI的突破性进展

Skywork AI技术发布周于8月11日拉开帷幕，此后模型发布接踵而至，直至8月15日每天都有新产品亮相。继早前发布的SkyReels-A3、Matrix-Game 2.0和Matrix-3D之后，这一密集期旨在推出专为核心多模态AI应用量身定制的尖端模型。一个重要的亮点是8月13日Skywork UniPic 2.0的开源。

UniPic 2.0 被设计为一个高效的统一多模态模型训练和部署框架。其核心目标是创建一个“高效、高质量、统一”的生成模型，能够无缝整合理解、图像生成和编辑能力。为实现这一目标，它在强大的多模态理解组件之外，还集成了轻量级的生成和编辑模块进行联合训练。开源 UniPic 2.0，包括其模型权重、推理代码和优化策略，是为了赋能开发者和研究人员，加速新型多模态应用的部署和开发。

Skywork UniPic 2.0 的架构建立在三个基础模块之上。首先，利用 SD3.5-Medium 架构的图像生成和编辑模块得到了显著升级。它最初设计为仅接受文本输入，现在能够同时处理文本和图像数据。通过在高质量数据集上的大量训练，其功能已从独立的图像生成演变为一个完全集成的生成和编辑套件。其次，统一模型能力模块集成了理解、生成和编辑功能。这是通过冻结图像生成和编辑组件，并通过一个专用连接器将其连接到预训练的多模态模型 Qwen2.5-VL-7B 来实现的。然后，对连接器和图像生成/编辑模块进行联合微调，从而实现一个能够无缝理解、生成和编辑的内聚系统。最后，图像生成和编辑的后训练模块采用了一种新颖的基于 Flow-GRPO 的渐进式双任务强化策略。这种创新方法允许在不相互干扰的情况下协同优化生成和编辑任务，从而获得超越标准预训练所能达到的性能提升。

这些架构进步为 UniPic 2.0 带来了多项关键优势。尽管其基于 SD3.5-Medium 架构的生成模块参数量相对紧凑，仅为20亿，但其表现出高性能。在图像生成和编辑基准测试中，它显著优于更大的竞争对手，如 Bagel（70亿参数）、OmniGen2（40亿参数）、UniWorld-V1（120亿参数）和 Flux-kontext。Flow-GRPO 策略驱动的强化学习能力增强，显著提升了模型解释复杂指令和在生成与编辑任务中保持一致性的能力，同时确保了协同优化且任务间互不干扰。此外，统一架构提供了可扩展的适应性，实现了 Kontext 图像生成/编辑模型与更广泛多模态架构的无缝端到端集成。这使得用户能够快速部署统一的理解-生成-编辑模型，并通过轻量级连接器微调进一步提升性能。

在综合基准测试中，UniPic2-SD3.5M-Kontext 模型以其20亿参数量取得了显著成果。它在图像生成指标上超越了 Flux.dev（120亿参数），在编辑性能上超越了 Flux-Kontext（120亿参数）。此外，它在生成和编辑任务上几乎超越了所有现有的统一模型，包括 UniWorld-V1（190亿参数）和 Bagel（140亿参数）。当扩展到统一的 UniPic2-Metaquery 架构时，该模型展现出额外的性能提升，显示出令人印象深刻的可扩展性。

Skywork 将 UniPic 2.0 的卓越能力归因于所有训练阶段的严格优化。预训练阶段包括训练 SD3.5-Medium，使其在保留原始架构的同时，能够根据文本指令和参考图像合成图像。这种方法实现了文本到图像（T2I）生成和文本条件图像编辑（I2I）。在联合训练期间，实施了 Metaquery 框架，将 Qwen2.5-VL（一个多模态模型）与图像合成模型对齐，从而创建了一个统一架构。这包括在超过1亿个精选图像生成样本上进行连接器预训练，以确保精确的特征对齐，然后进行联合 SFT（监督微调），在此阶段连接器和 UniPic2-SD3.5M-Kontext 模型都在高质量数据集上进行了微调。这个过程不仅保留了基础多模态模型的理解能力，还增强了生成和编辑能力。最终的后训练阶段采用了一种开创性的基于 Flow-GRPO 的渐进式双任务强化策略。这种突破性方法在统一架构内同时优化文本到图像生成和图像编辑，代表了多模态模型开发中首次展示的无干扰、协同任务改进实例。

Skywork 继续推动人工智能的边界，近期已开源了多个最先进的基础模型。其中包括用于视频生成的 SkyReels 系列——从AI驱动的短片制作到无限时长的电影生成，以及音频驱动的人像视频。在多模态AI领域，Skywork 还推出了 Skywork-R1V 系列，这是一个380亿参数的多模态推理模型，可与更大的专有模型媲美，以及像 Matrix-Game 2.0 交互式世界模型和 Matrix-3D 生成式世界模型这样的开创性空间智能系统。

Skywork UniPic 2.0 开源：统一多模态AI的突破性进展

相关文章

DeepSeek V3.1重磅发布：开源AI巨头挑战OpenAI，性能突破惊艳业界

Nebius AI 借 RL 突破，赋能开源 LLM 打造软件工程智能体

OpenAI重返开源：发布gpt-oss-120b与20b大模型