Qwen-Image Edit: La IA que reta a Photoshop con edición de texto a imagen

Venturebeat

En un desarrollo significativo para la creación de contenido digital, el equipo de investigadores de IA Qwen de Alibaba ha presentado Qwen-Image Edit, un modelo de IA de código abierto listo para desafiar el dominio de larga data del software de edición de imágenes tradicional como Adobe Photoshop. Lanzado como una extensión del modelo fundacional Qwen-Image de 20 mil millones de parámetros, este nuevo sistema permite a los usuarios ejecutar modificaciones de imagen complejas utilizando comandos de texto simples, democratizando eficazmente la edición visual avanzada.

Qwen-Image Edit opera bajo una premisa sencilla: los usuarios suben una imagen y luego escriben instrucciones detallando los cambios deseados. El modelo de IA procesa estas indicaciones de texto y genera una imagen revisada que incorpora las ediciones. Esta interfaz intuitiva tiene como objetivo reducir la barrera para la creación de contenido visual de calidad profesional, haciendo que las ediciones sofisticadas sean accesibles a una audiencia más amplia.

El modelo está disponible en una variedad de plataformas, incluyendo Qwen Chat, Hugging Face, ModelScope, GitHub y a través de la interfaz de programación de aplicaciones (API) de Alibaba Cloud. La naturaleza de código abierto de Qwen-Image Edit, lanzada bajo una licencia Apache 2.0, es particularmente notable para las empresas. Esto permite a las empresas descargar, integrar y desplegar el modelo en su propio hardware o infraestructura en la nube de forma gratuita, lo que podría generar ahorros sustanciales en comparación con las licencias de software propietario. Para los desarrolladores, Alibaba Cloud Model Studio ofrece acceso a la API a una tarifa de $0.045 por imagen, con una cuota gratuita de 100 imágenes para prueba, inicialmente disponible en la región de Singapur.

Una innovación central que sustenta Qwen-Image Edit es su mecanismo de doble codificación, una característica heredada de su predecesor Qwen-Image. Este enfoque alimenta las imágenes simultáneamente en dos pipelines distintos: uno para control semántico, comprendiendo el significado y el contexto de la escena, y otro para detalles reconstructivos, asegurando la fidelidad visual. Esta elección arquitectónica permite que el modelo realice dos tipos principales de ediciones: semánticas y basadas en la apariencia.

La edición semántica implica transformar el significado o la estructura de una escena. Ejemplos incluyen alterar una imagen para imitar un estilo artístico distinto, como el de Studio Ghibli, o rotar objetos para revelar diferentes perspectivas. Estas modificaciones a menudo implican cambios generalizados de píxeles, pero preservan crucialmente la identidad subyacente de los objetos dentro de la imagen. Una demostración impactante implicó la conversión de una fotografía de Manhattan en la estética distintiva de un set de Lego, mostrando la capacidad del modelo para una amplia transformación estilística.

Por el contrario, la edición de apariencia se centra en cambios precisos y localizados, dejando la mayor parte de la imagen intacta mientras altera elementos específicos. Esto incluye ajustes muy delicados, como eliminar un solo mechón de cabello de un retrato, o alteraciones más pronunciadas como añadir grafitis a un arco arquitectónico impoluto. El modelo también sobresale en la edición de texto bilingüe, permitiendo a los usuarios añadir, eliminar o modificar texto tanto en inglés como en chino, preservando meticulosamente la fuente, el tamaño y el estilo, una capacidad que se extiende a tareas complejas como la corrección de errores en la caligrafía china generada a través de refinamientos iterativos.

Las posibles aplicaciones de Qwen-Image Edit son vastas y variadas. El equipo Qwen de Alibaba destaca su utilidad en el diseño creativo y la expansión de la propiedad intelectual, como la generación de paquetes de emojis basados en mascotas; la publicidad y la creación de contenido, donde los logotipos y los elementos visuales con mucho texto pueden personalizarse rápidamente; el desarrollo de avatares virtuales y arte a través de transferencias de estilo sofisticadas; e incluso la preservación cultural, demostrada por su capacidad para corregir obras de caligrafía clásica. Esta combinación de control de grano fino y amplia transformación creativa posiciona a Qwen-Image Edit como una herramienta versátil tanto para creadores profesionales como para usuarios ocasionales que experimentan con proyectos personales.

Según el equipo Qwen, las evaluaciones en puntos de referencia públicos indican que Qwen-Image Edit logra un rendimiento de vanguardia en la edición de imágenes. Esto se basa en el buen desempeño del modelo base Qwen-Image en tareas generales de generación de imágenes y renderizado de texto, incluyendo altas clasificaciones en evaluaciones independientes como AI Arena, donde los evaluadores humanos compararon los resultados de varios modelos.

Qwen-Image Edit representa un avance significativo en el desarrollo de la IA, yendo más allá de la generación de propósito único hacia herramientas integradas que facilitan la edición, corrección y refinamiento. Al combinar las fortalezas generativas de los modelos grandes con la precisión requerida para la edición profesional, señala una tendencia más amplia hacia flujos de trabajo creativos impulsados por IA más sofisticados y accesibles.