Qwen-Image:阿里巴巴发布免费、开源AI图像大模型
阿里巴巴通义团队发布了Qwen-Image,这是一款旨在融入原生文本渲染能力的新型图像生成模型。此次发布使Qwen-Image成为GPT-4.1、DALL-E 2和Midjourney等成熟模型的直接挑战者,尤其值得注意的是,它免费向公众开放其功能。
Qwen-Image是一个200亿参数的多模态扩散Transformer(MMDiT)基础模型。作为一款开源的文生图模型,它目前在Artificial Analysis图像竞技场排行榜上排名第五,是前十名中唯一的开源模型。
该模型的操作方法与OpenAI的GPT-4o等模型中采用的技术相似。它采用自回归Transformer架构进行图像生成和编辑,并利用双重编码过程。首先,Qwen2.5-VL组件对用户提示的语义含义进行编码。然后,使用MMDiT扩散模型在潜在空间(一种抽象的中间表示)中进行图像生成。最后,一个VAE编码器将这种潜在表示转换为高质量的最终图像。
Qwen-Image的关键特性:
增强的文本融入能力: Qwen-Image在集成复杂文本方面表现出色,包括多行布局、段落和精细细节。它在英语等字母语言和中文等表意语言中均能保持一致的性能。
高效的图像编辑: 该模型提供强大的图像编辑功能,在无缝融入新修改的同时,保留原始图像的语义和视觉完整性。
易用性: Qwen-Image专为用户可访问性而设计,即使对简单的提示也能有效响应。
这些特性,加上其基准测试性能,凸显了Qwen-Image作为图像生成领域强大竞争者的潜力。
访问Qwen-Image:
Qwen-Image模型可通过chat.qwen.ai上的通义千问聊天界面访问。用户可以选择任何非编码模型,然后激活文本框下方的“图像生成”选项,即可开始输入提示。此外,该模型还可通过Github、Hugging Face和Modelscope等平台获取。
性能和用户体验:
对Qwen-Image的初步评估突出了其优势和有待改进的领域。在实际测试中:
文本密集型图像生成(网页设计): 该模型成功捕捉了提示的精髓,并融入了大量请求的文本。然而,也注意到了一些小问题,例如单词不完整或遗漏了某些特定请求的术语。所选的配色方案普遍受到好评。
信息图表创建(流程图): 这项任务揭示了局限性,包括文本缺失或模糊、图标方向混乱以及整体流程缺乏视觉清晰度。
图像编辑: Qwen-Image在图像编辑方面表现出色,能够准确应用复杂的修改,例如将夜间光线改为白天、更换衣物和替换物体。一个小的异常是,在白天转换编辑过程中,月亮仍然可见,但被重新渲染成云状。编辑处理速度很快。
总的来说,Qwen-Image的图像编辑能力尤为强大。其在生成复杂文本密集型图像或详细信息图表方面的表现表明仍有改进空间,尤其是在与领先竞争对手相比时。一个值得注意的可用性功能是能够直接从文本框中选择特定帧大小,这对于需要精确图像尺寸以适应各种平台的内容创作者来说非常有用。
基准测试性能:
根据通义团队发布的数据:
图像生成和编辑基准: Qwen-Image在大多数图像生成和编辑基准测试中要么领先,要么与顶级模型持平。GPT-4.1和Seedream3.0是紧密的竞争对手,在多个领域与Qwen-Image得分相同,而FLUX.1模型普遍落后。
文本渲染基准: Qwen-Image在中文文本渲染方面表现出强大的领先优势,在英文方面也表现出色。GPT4.1在各种基准测试中要么超越Qwen-Image,要么与之持平,而Seedream 3.0在中文和英文文本渲染方面均落后于Qwen-Image。
结论:
尽管阿里巴巴的通义模型在文本和编码任务中已确立主导地位,Qwen-Image在图像生成领域也展现出类似的潜力。虽然它能遵循提示,但在处理非常大或复杂的上下文时可能会遇到困难。其作为开源模型的发布是对开源社区的重大贡献,使其能够与高成本的专有模型竞争。随着用户和开发者的采用率增长,Qwen-Image有望在图像生成分析排名中进一步提升,巩固其在AI图像模型竞争格局中的地位。