阿里巴巴通义千问-图像:AI图像内文本高保真生成新突破
阿里巴巴发布了通义千问-图像(Qwen-Image),这是一个先进的200亿参数人工智能模型,专门用于在图像内直接生成高保真文本。这项新成果代表了文本感知图像生成领域的重大飞跃,有望将文本元素自然地融入到多样化的视觉语境中。
通义千问-图像的开发者强调了其卓越的多功能性,能够处理广泛的视觉风格。从点缀着多个店面招牌的动态动漫场景,到包含复杂内容的精心构建的PowerPoint幻灯片,该模型都展现出对风格细微差的理解。此外,通义千问-图像专为全球适用性而设计,无缝支持双语文本,并能在单个视觉输出中轻松切换语言。
除了核心的文本生成能力,通义千问-图像还拥有一整套全面的编辑工具。用户可以直观地修改视觉风格、引入或移除对象,甚至调整图像中人物的姿态。该模型还将功能扩展到传统的计算机视觉任务,例如准确估计图像深度或从现有视觉内容生成新颖的视角,这展现了其对空间关系的强大理解。
通义千问-图像的架构基础是三部分的,集成了先进的组件以实现最佳性能。Qwen2.5-VL作为文本-图像理解的骨干,解释视觉和语言信息之间复杂的相互作用。变分自编码器(Variational AutoEncoder)高效压缩图像数据,简化处理,而多模态扩散Transformer(Multimodal Diffusion Transformer)则负责生成最终的高质量视觉输出。支撑模型文本放置精度的关键创新是MSRoPE(Multimodal Scalable RoPE)。与可能将文本视为简单线性序列的传统方法不同,MSRoPE将文本元素沿图像中的对角线空间排列。这种新颖的方法使模型能够在不同的图像分辨率下更精确地定位文本,确保文本和视觉内容之间卓越的对齐。
通义千问-图像的训练方法优先考虑质量和真实性。通义团队精心策划了一个训练数据集,分为四个主要领域:自然图像(55%)、海报和幻灯片等设计内容(27%)、人物描绘(13%),以及一小部分合成数据(5%)。至关重要的是,训练流程刻意排除了AI生成的图像,而是专注于通过受控、可靠过程创建的文本。一个多阶段过滤系统被实施,用于识别和移除低质量内容,对亮度、饱和度或模糊度极端的异常值进行标记以进行额外审查。为了进一步多样化训练集,采用了三种不同的渲染策略:用于背景上简单文本的“纯渲染”(Pure Rendering)、用于将文本集成到真实场景中的“组合渲染”(Compositional Rendering)、以及用于演示幻灯片等复杂结构化布局的“复杂渲染”(Complex Rendering)。
在竞争性评估中,通义千问-图像展现了其与成熟商业模型抗衡的实力。一个“竞技场平台”促成了超过10,000次匿名用户比较,其中通义千问-图像显著获得了总分第三名,超越了GPT-Image-1和Flux.1 Context等竞争对手。基准测试结果证实了这些发现;在用于对象生成的GenEval测试中,通义千问-图像在补充训练后取得了0.91分,超越了所有其他模型。该模型在渲染中文字符方面表现出明显优势,并且在英文字符生成方面与竞争对手表现相当。
研究人员展望通义千问-图像是迈向“视觉-语言用户界面”发展的关键一步,其中文本和图像功能无缝集成。阿里巴巴在该领域的持续投入体现在其追求图像理解和生成统一平台方面,这建立在Qwen VLo模型等近期成功的基础上,该模型也以其强大的文本能力而闻名。通义千问-图像目前可在GitHub和Hugging Face上免费获取,并提供实时演示供公众测试。