Qwen-Image-Edit:语义与外观图像编辑的先进AI

Marktechpost

在多模态人工智能领域取得重大进展,阿里巴巴通义团队(Qwen Team)推出了Qwen-Image-Edit,这是一款基于指令的图像编辑模型,其基础是强大的200亿参数Qwen-Image基座模型。该新版本于2025年8月发布,引入了复杂的语义和外观编辑功能,同时保留了Qwen-Image在渲染复杂中英文文本方面的显著优势。它与通义千问(Qwen Chat)的集成以及在Hugging Face上的可用性,旨在普及专业内容创作,从最初的知识产权设计到AI生成艺术品中复杂的错误校正。

Qwen-Image-Edit的技术核心是扩展了多模态扩散变换器(MMDiT)架构。该框架集成了Qwen2.5-VL多模态大型语言模型(MLLM)以实现全面的文本条件化,一个变分自编码器(VAE)用于高效的图像标记化,以及MMDiT本身作为联合建模的中央处理单元。针对编辑任务的关键创新是其双编码机制:输入图像同时由Qwen2.5-VL处理以进行高级语义理解,并由VAE处理以捕获低级重构细节。然后,这些独特的特征集在MMDiT的图像流中进行拼接,从而在保持语义连贯性(例如在姿态变化期间保留对象身份)和确保视觉保真度(例如保持未修改区域不变)之间实现微妙的平衡。为了进一步增强其适应性,多模态可伸缩旋转位置编码(MSRoPE)已通过“帧维度”进行增强,以区分编辑前和编辑后的图像,这对于复杂的文本-图像-到-图像(TI2I)编辑任务至关重要。VAE经过专门针对富文本数据集的微调,展现出卓越的重构质量,在通用图像上实现了33.42的峰值信噪比(PSNR),在富文本视觉内容上实现了令人印象深刻的36.63,优于FLUX-VAE和SD-3.5-VAE等成熟模型。这些架构上的改进使Qwen-Image-Edit能够执行复杂的双语文本编辑,同时精确保留原始字体、大小和样式。

Qwen-Image-Edit在图像处理的两个主要领域表现出色。在外观编辑方面,它能够实现精确的低级视觉调整,允许用户添加、删除或修改特定元素——例如逼真地嵌入带有反射的招牌,或微妙地移除单独的发丝——而不会无意中改变周围区域。同时,其语义编辑能力允许进行高级概念更改,支持知识产权创建等任务,例如将吉祥物改编成各种MBTI主题表情包,同时保持角色一致性。它还可以执行高级对象旋转和风格迁移,将肖像转换为吉卜力工作室动画的独特美学风格,所有这些都确保了语义完整性和一致的像素变化。一个突出特点是其精确的文本编辑功能,支持中文和英文。用户可以直接在图像中添加、删除或修改文本,通过边界框纠正书法错误或更改海报上的文字,始终保留原始排版属性。该模型还支持“链式编辑”,允许迭代校正,例如逐步完善复杂的汉字,直到达到完美精度。它能够执行180度新颖视图合成,以高保真度旋转对象或整个场景,这一点尤其值得注意,在GSO基准上实现了15.11的PSNR,这一分数甚至超越了CRM等专业模型。

该模型强大的性能直接来源于广泛的训练和数据管道。Qwen-Image-Edit利用了Qwen-Image精心策划的数据集,该数据集包含来自不同领域的数十亿图像-文本对:自然(55%)、设计(27%)、人物(13%)和合成(5%)。它采用多任务训练范式,统一了文本-到-图像(T2I)、图像-到-图像(I2I)和文本-图像-到-图像(TI2I)目标。严格的七阶段过滤管道对这些数据进行精炼,以获得最佳质量和平衡,并结合创新的合成文本渲染策略(纯净、组合、复杂)来解决中文汉字中普遍存在的长尾问题。训练过程在生产者-消费者框架内利用流匹配以实现可伸缩性,随后通过监督微调和强化学习技术(如DPO和GRPO)使模型与人类偏好对齐。对于特定的编辑任务,它集成了新颖视图合成和深度估计等功能,并采用DepthPro作为教师模型,这有助于其在通过链式编辑纠正书法错误等领域表现出色。

在基准评估中,Qwen-Image-Edit在多个图像编辑公共基准上展示了最先进的结果。在GEdit-Bench-EN上,它总分达到7.56;在GEdit-Bench-CN上,它达到了7.52,优于GPT Image 1(7.53 EN, 7.30 CN)和FLUX.1 Kontext [Pro](6.56 EN, 1.23 CN)等竞争对手。它在ImgEdit上的表现获得了4.27的总分,在对象替换(4.66)和风格变化(4.81)方面尤其突出。对于深度估计,它在KITTI上实现了0.078的绝对相对误差(AbsRel),这一结果与DepthAnything v2等领先模型具有竞争力。在AI Arena上进行的人工评估进一步将其基础模型排在可用API中的第三位,凸显了其卓越的指令遵循能力和多语言保真度,尤其是在文本渲染方面。

对于开发者和创作者而言,Qwen-Image-Edit可通过Hugging Face Diffusers轻松部署,提供简化的集成流程。此外,阿里云魔搭社区(Alibaba Cloud’s Model Studio)提供API访问,实现可伸缩的推理。训练代码根据Apache 2.0许可证在GitHub上开源。这种可访问性强调了致力于促进AI驱动设计创新的更广泛承诺。Qwen-Image-Edit代表着视觉-语言界面的一大飞跃,使创作者能够进行更无缝、更精确的内容操作。其统一理解和生成视觉内容的方法预示着未来扩展到视频和3D领域令人兴奋的潜力,有望在AI驱动的设计应用中开启新的前沿。