Alibaba Qwen Image : Édition Visuelle et Sémantique Avancée Désormais Disponible

Decoder

Alibaba a considérablement amélioré son modèle d’image Qwen, dévoilant de nouveaux outils d’édition qui permettent la manipulation visuelle et sémantique des images. Cette dernière itération, nommée Qwen-Image-Edit, s’appuie sur la base du modèle Qwen-Image de 20 milliards de paramètres d’Alibaba, intégrant une approche de traitement à double volet pour offrir ses capacités avancées. Il combine Qwen2.5-VL pour un contrôle sémantique sophistiqué avec un auto-encodeur variationnel (VAE) pour gérer l’apparence visuelle, bien que les détails techniques spécifiques de son architecture restent confidentiels.

Le système est conçu pour gérer un large éventail d’altérations d’images, des retouches mineures aux transformations sémantiques complexes. Son mode « édition d’apparence » permet aux utilisateurs de modifier des régions spécifiques d’une image tout en laissant les zones environnantes intactes. Inversement, l’« édition sémantique » permet des changements plus larges au niveau des pixels sur une image entière, en maintenant de manière cruciale la cohérence et la reconnaissabilité du sujet principal.

Alibaba a présenté diverses applications pratiques pour Qwen-Image-Edit. Par exemple, la fonction d’édition sémantique peut générer de nouveaux contenus de propriété intellectuelle, démontré par la création de diverses versions de sa mascotte Capybara. Même lorsqu’une partie significative des pixels de l’image est altérée, le personnage reste clairement identifiable. D’autres utilisations créatives incluent la génération de nouvelles perspectives pour des objets, comme les faire pivoter de 90 ou 180 degrés, et l’application de transferts de style pour créer des avatars uniques – illustré par la transformation de portraits en images rappelant le style d’animation distinctif du Studio Ghibli. Au-delà de cela, le modèle peut effectuer des éditions détaillées comme l’ajout de panneaux avec des reflets réalistes, la suppression méticuleuse des cheveux égarés, le changement de couleur du texte ou la modification des arrière-plans et des vêtements.

Une caractéristique remarquable de Qwen-Image-Edit est sa capacité robuste d’édition de texte bilingue, prenant en charge le chinois et l’anglais. Les utilisateurs peuvent ajouter, supprimer ou modifier du texte directement dans les images de manière transparente tout en préservant la police, la taille et le style général d’origine. Le système permet aux utilisateurs de définir des cadres englobants autour du texte incorrect ou indésirable pour des mises à jour précises. Bien que le modèle puisse occasionnellement rencontrer des difficultés avec des caractères rares ou inhabituels, il prend en charge un processus de raffinement étape par étape, permettant aux utilisateurs de marquer des points problématiques spécifiques et d’améliorer itérativement les résultats jusqu’à satisfaction.

Alibaba affirme que Qwen-Image-Edit atteint des performances de pointe sur les benchmarks publics d’édition d’images, bien que des métriques spécifiques n’aient pas été divulguées. Le modèle est actuellement accessible via la fonction « Édition d’image » dans Qwen Chat et est également disponible sur des plateformes comme Github, Hugging Face et Modelscope, le rendant largement accessible aux développeurs et aux utilisateurs.

Cette avancée d’Alibaba souligne les progrès rapides en matière d’édition d’images ciblée et de rendu de texte dans l’IA. Historiquement, il a été un défi important pour les modèles d’IA de n’altérer que des parties spécifiques d’une image sans perturber par inadvertance d’autres éléments. Alors que d’autres acteurs, tels que Black Forest Labs avec son modèle Flux.1 Context, explorent également cet espace en combinant la génération de texte à image avec l’édition, certains présentent encore des artefacts visibles dans des séquences d’édition complexes ou ont des difficultés avec la précision des invites. Qwen-Image-Edit représente un bond substantiel en avant pour relever ces défis persistants, offrant un contrôle plus précis et polyvalent sur le contenu de l’image.