Qwen-Image-Edit：语义与外观图像编辑的先进AI

在多模态人工智能领域取得重大进展，阿里巴巴通义团队（Qwen Team）推出了Qwen-Image-Edit，这是一款基于指令的图像编辑模型，其基础是强大的200亿参数Qwen-Image基座模型。该新版本于2025年8月发布，引入了复杂的语义和外观编辑功能，同时保留了Qwen-Image在渲染复杂中英文文本方面的显著优势。它与通义千问（Qwen Chat）的集成以及在Hugging Face上的可用性，旨在普及专业内容创作，从最初的知识产权设计到AI生成艺术品中复杂的错误校正。

Qwen-Image-Edit的技术核心是扩展了多模态扩散变换器（MMDiT）架构。该框架集成了Qwen2.5-VL多模态大型语言模型（MLLM）以实现全面的文本条件化，一个变分自编码器（VAE）用于高效的图像标记化，以及MMDiT本身作为联合建模的中央处理单元。针对编辑任务的关键创新是其双编码机制：输入图像同时由Qwen2.5-VL处理以进行高级语义理解，并由VAE处理以捕获低级重构细节。然后，这些独特的特征集在MMDiT的图像流中进行拼接，从而在保持语义连贯性（例如在姿态变化期间保留对象身份）和确保视觉保真度（例如保持未修改区域不变）之间实现微妙的平衡。为了进一步增强其适应性，多模态可伸缩旋转位置编码（MSRoPE）已通过“帧维度”进行增强，以区分编辑前和编辑后的图像，这对于复杂的文本-图像-到-图像（TI2I）编辑任务至关重要。VAE经过专门针对富文本数据集的微调，展现出卓越的重构质量，在通用图像上实现了33.42的峰值信噪比（PSNR），在富文本视觉内容上实现了令人印象深刻的36.63，优于FLUX-VAE和SD-3.5-VAE等成熟模型。这些架构上的改进使Qwen-Image-Edit能够执行复杂的双语文本编辑，同时精确保留原始字体、大小和样式。

Qwen-Image-Edit在图像处理的两个主要领域表现出色。在外观编辑方面，它能够实现精确的低级视觉调整，允许用户添加、删除或修改特定元素——例如逼真地嵌入带有反射的招牌，或微妙地移除单独的发丝——而不会无意中改变周围区域。同时，其语义编辑能力允许进行高级概念更改，支持知识产权创建等任务，例如将吉祥物改编成各种MBTI主题表情包，同时保持角色一致性。它还可以执行高级对象旋转和风格迁移，将肖像转换为吉卜力工作室动画的独特美学风格，所有这些都确保了语义完整性和一致的像素变化。一个突出特点是其精确的文本编辑功能，支持中文和英文。用户可以直接在图像中添加、删除或修改文本，通过边界框纠正书法错误或更改海报上的文字，始终保留原始排版属性。该模型还支持“链式编辑”，允许迭代校正，例如逐步完善复杂的汉字，直到达到完美精度。它能够执行180度新颖视图合成，以高保真度旋转对象或整个场景，这一点尤其值得注意，在GSO基准上实现了15.11的PSNR，这一分数甚至超越了CRM等专业模型。

该模型强大的性能直接来源于广泛的训练和数据管道。Qwen-Image-Edit利用了Qwen-Image精心策划的数据集，该数据集包含来自不同领域的数十亿图像-文本对：自然（55%）、设计（27%）、人物（13%）和合成（5%）。它采用多任务训练范式，统一了文本-到-图像（T2I）、图像-到-图像（I2I）和文本-图像-到-图像（TI2I）目标。严格的七阶段过滤管道对这些数据进行精炼，以获得最佳质量和平衡，并结合创新的合成文本渲染策略（纯净、组合、复杂）来解决中文汉字中普遍存在的长尾问题。训练过程在生产者-消费者框架内利用流匹配以实现可伸缩性，随后通过监督微调和强化学习技术（如DPO和GRPO）使模型与人类偏好对齐。对于特定的编辑任务，它集成了新颖视图合成和深度估计等功能，并采用DepthPro作为教师模型，这有助于其在通过链式编辑纠正书法错误等领域表现出色。

在基准评估中，Qwen-Image-Edit在多个图像编辑公共基准上展示了最先进的结果。在GEdit-Bench-EN上，它总分达到7.56；在GEdit-Bench-CN上，它达到了7.52，优于GPT Image 1（7.53 EN, 7.30 CN）和FLUX.1 Kontext [Pro]（6.56 EN, 1.23 CN）等竞争对手。它在ImgEdit上的表现获得了4.27的总分，在对象替换（4.66）和风格变化（4.81）方面尤其突出。对于深度估计，它在KITTI上实现了0.078的绝对相对误差（AbsRel），这一结果与DepthAnything v2等领先模型具有竞争力。在AI Arena上进行的人工评估进一步将其基础模型排在可用API中的第三位，凸显了其卓越的指令遵循能力和多语言保真度，尤其是在文本渲染方面。

对于开发者和创作者而言，Qwen-Image-Edit可通过Hugging Face Diffusers轻松部署，提供简化的集成流程。此外，阿里云魔搭社区（Alibaba Cloud’s Model Studio）提供API访问，实现可伸缩的推理。训练代码根据Apache 2.0许可证在GitHub上开源。这种可访问性强调了致力于促进AI驱动设计创新的更广泛承诺。Qwen-Image-Edit代表着视觉-语言界面的一大飞跃，使创作者能够进行更无缝、更精确的内容操作。其统一理解和生成视觉内容的方法预示着未来扩展到视频和3D领域令人兴奋的潜力，有望在AI驱动的设计应用中开启新的前沿。

Qwen-Image-Edit：语义与外观图像编辑的先进AI

相关文章

甲骨文将OpenAI GPT-5深度集成至全线企业软件

OpenAI GPT-5发布引爆用户反弹：修复、教训与未来挑战

腾讯AI：图像变身互动游戏视频，实时操控新体验