阿里巴巴通义千问图像模型:视觉与语义编辑能力实现飞跃

Decoder

阿里巴巴显著增强了其通义千问图像模型,发布了全新的编辑工具,允许对图像进行视觉和语义操作。这一最新迭代被称为Qwen-Image-Edit,它建立在阿里巴巴200亿参数的通义千问图像模型基础之上,并整合了双管齐下的处理方法,以提供其高级功能。它结合了Qwen2.5-VL以实现复杂的语义控制,并使用变分自编码器(VAE)来管理视觉外观,尽管其架构的详细技术细节仍未公开。

该系统旨在处理广泛的图像修改,从细微的修饰到复杂的语义转换。其“外观编辑”模式允许用户修改图像的特定区域,同时保持周围区域不变。相反,“语义编辑”允许对整个图像进行更广泛的像素级更改,关键在于保持主体的一致性和可识别性。

阿里巴巴展示了Qwen-Image-Edit的各种实际应用。例如,语义编辑功能可以生成新的知识产权内容,通过创建其水豚吉祥物(Capybara mascot)的各种版本来展示。即使图像的大部分像素被改变,该角色仍然清晰可辨。其他创意用途包括生成对象的不同视角,例如将其旋转90或180度,以及应用风格迁移来创建独特的头像——例如将肖像转换为吉卜力工作室独特动画风格的图像。除此之外,该模型还可以执行详细的编辑,例如添加带有逼真反射的标志、精心去除杂散毛发、更改文本颜色或修改背景和服装。

Qwen-Image-Edit的一个突出特点是其强大的双语文本编辑能力,支持中文和英文。用户可以在图像中无缝添加、删除或更改文本,同时保留原始字体、大小和整体风格。该系统允许用户围绕不正确或不需要的文本定义边界框,以进行精确更新。虽然模型偶尔可能遇到稀有或不寻常字符的困难,但它支持分步细化过程,使用户可以标记特定的问题点并迭代改进结果,直到他们满意为止。

阿里巴巴声称Qwen-Image-Edit在公共图像编辑基准上实现了最先进的性能,尽管具体指标尚未披露。该模型目前可通过通义千问聊天中的“图像编辑”功能访问,并可在Github、Hugging Face和Modelscope等平台获取,使其广泛可供开发者和用户使用。

阿里巴巴的这一进步突显了AI在定向图像编辑和文本渲染方面的快速发展。历史上,AI模型在不经意间扰乱其他元素的情况下仅更改图像的特定部分一直是一个重大挑战。虽然其他参与者,例如Black Forest Labs及其Flux.1上下文模型,也通过将文本到图像生成与编辑相结合来探索这一领域,但有些在复杂编辑序列中仍显示出可见的伪影或在提示准确性方面存在问题。Qwen-Image-Edit在解决这些持续存在的挑战方面取得了实质性飞跃,提供了对图像内容更精确和多功能的控制。