Qwen-Image-Edit: IA Avanzada para Edición Semántica y de Apariencia de Imágenes
En un avance significativo para la inteligencia artificial multimodal, el equipo Qwen de Alibaba ha presentado Qwen-Image-Edit, un modelo de edición de imágenes basado en instrucciones que se construye sobre la sólida base de 20 mil millones de parámetros de Qwen-Image. Lanzada en agosto de 2025, esta nueva iteración introduce capacidades sofisticadas para la edición tanto semántica como de apariencia, mientras retiene la notable fortaleza de Qwen-Image en la renderización de texto complejo tanto en inglés como en chino. Su integración con Qwen Chat y su disponibilidad a través de Hugging Face tienen como objetivo democratizar la creación de contenido profesional, desde el diseño inicial de propiedad intelectual hasta la corrección de errores intrincados en obras de arte generadas por IA.
La columna vertebral técnica de Qwen-Image-Edit extiende la arquitectura del Transformador de Difusión Multimodal (MMDiT). Este marco incorpora un modelo de lenguaje grande multimodal (MLLM) Qwen2.5-VL para un condicionamiento de texto integral, un Autoencoder Variacional (VAE) para una tokenización eficiente de imágenes, y el propio MMDiT como unidad central de procesamiento para el modelado conjunto. Una innovación clave para las tareas de edición es su mecanismo de doble codificación: una imagen de entrada es procesada simultáneamente por el Qwen2.5-VL para una comprensión semántica de alto nivel y por el VAE para capturar detalles reconstructivos de bajo nivel. Estos conjuntos de características distintos se concatenan luego dentro del flujo de imágenes de MMDiT, permitiendo un delicado equilibrio entre mantener la coherencia semántica —como preservar la identidad de un objeto durante un cambio de pose— y asegurar la fidelidad visual, como dejar las regiones no modificadas intactas. Mejorando aún más su adaptabilidad, la codificación posicional Multimodal Scalable RoPE (MSRoPE) ha sido aumentada con una “dimensión de marco” para diferenciar entre imágenes pre y post-edición, una característica crucial para tareas complejas de edición de texto-imagen-a-imagen (TI2I). El VAE, específicamente ajustado en conjuntos de datos ricos en texto, demuestra una calidad de reconstrucción superior, alcanzando una Relación Señal/Ruido Pico (PSNR) de 33.42 en imágenes generales y un impresionante 36.63 en visuales con mucho texto, superando a modelos establecidos como FLUX-VAE y SD-3.5-VAE. Estos refinamientos arquitectónicos permiten a Qwen-Image-Edit realizar ediciones de texto bilingües sofisticadas mientras preserva meticulosamente la fuente, el tamaño y el estilo originales.
Qwen-Image-Edit sobresale en dos dominios principales de manipulación de imágenes. Para la edición de apariencia, facilita ajustes visuales precisos de bajo nivel, permitiendo a los usuarios añadir, eliminar o modificar elementos específicos —como incrustar de forma realista carteles con reflejos o eliminar sutilmente mechones de cabello individuales— sin alterar inadvertidamente las regiones circundantes. Concomitantemente, sus capacidades de edición semántica permiten cambios conceptuales de alto nivel, apoyando tareas como la creación de propiedad intelectual, donde una mascota puede adaptarse a varios emojis temáticos de MBTI manteniendo la coherencia del personaje. También puede realizar rotaciones avanzadas de objetos y transferencia de estilo, transformando un retrato en la estética distintiva de una animación de Studio Ghibli, todo ello asegurando la integridad semántica y cambios de píxeles consistentes. Una característica destacada es su edición precisa de texto, que soporta tanto chino como inglés. Los usuarios pueden añadir, eliminar o modificar directamente texto dentro de las imágenes, corrigiendo errores de caligrafía mediante cuadros delimitadores o cambiando palabras en un póster, siempre preservando los atributos tipográficos originales. El modelo también soporta la “edición encadenada”, permitiendo correcciones iterativas, como el refinamiento paso a paso de caracteres chinos complejos hasta lograr una precisión perfecta. Su capacidad para realizar síntesis de nueva vista de 180 grados, rotando objetos o escenas enteras con alta fidelidad, es particularmente notable, logrando un PSNR de 15.11 en el benchmark GSO, una puntuación que supera incluso a modelos especializados como CRM.
El robusto rendimiento del modelo es un resultado directo de un extenso pipeline de entrenamiento y datos. Qwen-Image-Edit aprovecha el conjunto de datos meticulosamente curado de Qwen-Image, que comprende miles de millones de pares de imagen-texto en diversos dominios: Naturaleza (55%), Diseño (27%), Personas (13%) y Sintético (5%). Emplea un paradigma de entrenamiento multitarea que unifica los objetivos de texto-a-imagen (T2I), imagen-a-imagen (I2I) y texto-imagen-a-imagen (TI2I). Un riguroso pipeline de filtrado de siete etapas refina estos datos para una calidad y equilibrio óptimos, incorporando estrategias innovadoras de renderización de texto sintético (Puro, Composicional, Complejo) para abordar problemas de cola larga prevalentes en los caracteres chinos. El proceso de entrenamiento utiliza el ajuste de flujo dentro de un marco Productor-Consumidor para la escalabilidad, seguido de técnicas de ajuste fino supervisado y aprendizaje por refuerzo como DPO y GRPO para alinear el modelo con las preferencias humanas. Para tareas de edición específicas, integra capacidades como la síntesis de nueva vista y la estimación de profundidad, empleando DepthPro como modelo “maestro”, lo que contribuye a su sólido rendimiento en áreas como la corrección de errores de caligrafía a través de ediciones encadenadas.
En las evaluaciones de benchmark, Qwen-Image-Edit ha demostrado resultados de vanguardia en múltiples benchmarks públicos para la edición de imágenes. En GEdit-Bench-EN, obtuvo una puntuación general de 7.56, y en GEdit-Bench-CN, alcanzó 7.52, superando a competidores como GPT Image 1 (7.53 EN, 7.30 CN) y FLUX.1 Kontext [Pro] (6.56 EN, 1.23 CN). Su rendimiento en ImgEdit arrojó una puntuación general de 4.27, con fortalezas particulares en el reemplazo de objetos (4.66) y cambios de estilo (4.81). Para la estimación de profundidad, logró un error relativo absoluto (AbsRel) de 0.078 en KITTI, un resultado competitivo con modelos líderes como DepthAnything v2. Las evaluaciones humanas realizadas en AI Arena ubicaron además su modelo base en tercer lugar entre las APIs disponibles, destacando sus capacidades superiores de seguimiento de instrucciones y fidelidad multilingüe, especialmente en la renderización de texto.
Para desarrolladores y creadores, Qwen-Image-Edit es fácilmente desplegable a través de Hugging Face Diffusers, ofreciendo un proceso de integración optimizado. Además, Model Studio de Alibaba Cloud proporciona acceso a la API para una inferencia escalable. Con licencia Apache 2.0, el código de entrenamiento está disponible públicamente en GitHub. Esta accesibilidad subraya un compromiso más amplio con el fomento de la innovación en el diseño impulsado por la IA. Qwen-Image-Edit representa un salto significativo en las interfaces de visión-lenguaje, permitiendo una manipulación de contenido más fluida y precisa para los creadores. Su enfoque unificado para comprender y generar contenido visual sugiere un potencial emocionante para futuras extensiones a los dominios de video y 3D, prometiendo desbloquear nuevas fronteras en las aplicaciones de diseño impulsadas por la IA.