El Modelo de Imagen Qwen de Alibaba: Edición Visual y Semántica Avanzada

Decoder

Alibaba ha mejorado significativamente su modelo de imagen Qwen, revelando nuevas herramientas de edición que permiten la manipulación visual y semántica de imágenes. Esta última iteración, denominada Qwen-Image-Edit, se basa en el modelo Qwen-Image de 20 mil millones de parámetros de Alibaba, integrando un enfoque de procesamiento de doble vía para ofrecer sus capacidades avanzadas. Combina Qwen2.5-VL para un control semántico sofisticado con un Autoencoder Variacional (VAE) para gestionar la apariencia visual, aunque los detalles técnicos específicos de su arquitectura siguen siendo un secreto.

El sistema está diseñado para manejar un amplio espectro de alteraciones de imagen, desde retoques menores hasta transformaciones semánticas intrincadas. Su modo de “edición de apariencia” permite a los usuarios modificar regiones específicas de una imagen mientras dejan las áreas circundantes intactas. Por el contrario, la “edición semántica” permite cambios más amplios a nivel de píxel en toda una imagen, manteniendo crucialmente la coherencia y el reconocimiento del sujeto principal.

Alibaba ha mostrado varias aplicaciones prácticas para Qwen-Image-Edit. Por ejemplo, la función de edición semántica puede generar nuevo contenido de propiedad intelectual, demostrado a través de la creación de diversas versiones de su mascota Capybara. Incluso cuando una porción significativa de los píxeles de la imagen se altera, el personaje permanece claramente identificable. Otros usos creativos incluyen la generación de nuevas perspectivas para objetos, como rotarlos 90 o 180 grados, y la aplicación de transferencias de estilo para crear avatares únicos, ejemplificado al transformar retratos en imágenes que recuerdan el distintivo estilo de animación de Studio Ghibli. Más allá de esto, el modelo puede realizar ediciones detalladas como añadir letreros con reflejos realistas, eliminar meticulosamente pelos sueltos, cambiar el color del texto o modificar fondos y vestimenta.

Una característica destacada de Qwen-Image-Edit es su robusta capacidad de edición de texto bilingüe, que soporta tanto chino como inglés. Los usuarios pueden añadir, eliminar o alterar texto directamente dentro de las imágenes sin problemas, preservando la fuente, el tamaño y el estilo general originales. El sistema permite a los usuarios definir cuadros delimitadores alrededor de texto incorrecto o no deseado para actualizaciones precisas. Aunque el modelo puede encontrar dificultades ocasionalmente con caracteres raros o inusuales, soporta un proceso de refinamiento paso a paso, permitiendo a los usuarios marcar puntos problemáticos específicos y mejorar iterativamente los resultados hasta que logren satisfacción.

Alibaba afirma que Qwen-Image-Edit logra un rendimiento de vanguardia en los benchmarks públicos de edición de imágenes, aunque no se han revelado métricas específicas. El modelo es actualmente accesible a través de la función de “Edición de Imagen” dentro de Qwen Chat y también está disponible en plataformas como Github, Hugging Face y Modelscope, lo que lo hace ampliamente disponible para desarrolladores y usuarios.

Este avance de Alibaba subraya el rápido progreso en la edición de imágenes dirigida y la renderización de texto dentro de la IA. Históricamente, ha sido un desafío significativo para los modelos de IA alterar solo partes específicas de una imagen sin interrumpir inadvertidamente otros elementos. Si bien otros actores, como Black Forest Labs con su modelo Flux.1 Context, también están explorando este espacio combinando la generación de texto a imagen con la edición, algunos aún exhiben artefactos visibles en secuencias de edición complejas o tienen dificultades con la precisión de las indicaciones. Qwen-Image-Edit representa un salto sustancial hacia adelante para abordar estos desafíos persistentes, ofreciendo un control más preciso y versátil sobre el contenido de la imagen.