Qwen-Image Edit : L'IA qui défie Photoshop avec l'édition texte-image

Venturebeat

Dans un développement significatif pour la création de contenu numérique, l’équipe de chercheurs en IA Qwen d’Alibaba a dévoilé Qwen-Image Edit, un modèle d’IA open source prêt à défier la domination de longue date des logiciels d’édition d’images traditionnels comme Adobe Photoshop. Lancé comme une extension du modèle fondamental Qwen-Image de 20 milliards de paramètres, ce nouveau système permet aux utilisateurs d’exécuter des modifications d’images complexes à l’aide de simples commandes textuelles, démocratisant ainsi efficacement l’édition visuelle avancée.

Qwen-Image Edit fonctionne sur une prémisse simple : les utilisateurs téléchargent une image puis tapent des instructions détaillant les changements souhaités. Le modèle d’IA traite ces invites textuelles et génère une image révisée incorporant les modifications. Cette interface intuitive vise à abaisser la barrière à la création de contenu visuel de qualité professionnelle, rendant les modifications sophistiquées accessibles à un public plus large.

Le modèle est facilement disponible sur une gamme de plateformes, y compris Qwen Chat, Hugging Face, ModelScope, GitHub, et via l’interface de programmation d’applications (API) d’Alibaba Cloud. La nature open source de Qwen-Image Edit, publié sous une licence Apache 2.0, est particulièrement remarquable pour les entreprises. Cela permet aux entreprises de télécharger, d’intégrer et de déployer le modèle sur leur propre matériel ou infrastructure cloud gratuitement, ce qui peut entraîner des économies substantielles par rapport aux licences de logiciels propriétaires. Pour les développeurs, Alibaba Cloud Model Studio offre un accès API au tarif de 0,045 $ par image, avec un quota gratuit de 100 images pour l’essai, initialement disponible dans la région de Singapour.

Une innovation fondamentale qui sous-tend Qwen-Image Edit est son mécanisme de double encodage, une fonctionnalité héritée de son prédécesseur Qwen-Image. Cette approche alimente les images simultanément dans deux pipelines distincts : l’un pour le contrôle sémantique, comprenant la signification et le contexte de la scène, et l’autre pour les détails reconstructifs, assurant la fidélité visuelle. Ce choix architectural permet au modèle d’effectuer deux types principaux d’éditions : sémantiques et basées sur l’apparence.

L’édition sémantique implique la transformation du sens ou de la structure d’une scène. Les exemples incluent la modification d’une image pour imiter un style artistique distinct, tel que celui du Studio Ghibli, ou la rotation d’objets pour révéler différentes perspectives. Ces modifications impliquent souvent des changements de pixels étendus mais préservent de manière crucial l’identité sous-jacente des objets dans l’image. Une démonstration frappante a impliqué la conversion d’une photographie de Manhattan en l’esthétique distincte d’un ensemble Lego, démontrant la capacité du modèle à une large transformation stylistique.

Inversement, l’édition d’apparence se concentre sur des changements précis et localisés, laissant la majeure partie de l’image intacte tout en modifiant des éléments spécifiques. Cela inclut des ajustements très délicats, comme la suppression d’une seule mèche de cheveux d’un portrait, ou des altérations plus prononcées comme l’ajout de graffitis à une arche architecturale immaculée. Le modèle excelle également dans l’édition de texte bilingue, permettant aux utilisateurs d’ajouter, de supprimer ou de modifier du texte en anglais et en chinois tout en préservant méticuleusement la police, la taille et le style – une capacité qui s’étend à des tâches complexes comme la correction d’erreurs dans la calligraphie chinoise générée par un raffinement itératif.

Les applications potentielles de Qwen-Image Edit sont vastes et variées. L’équipe Qwen d’Alibaba souligne son utilité dans la conception créative et l’expansion de la propriété intellectuelle, comme la génération de packs d’emojis basés sur des mascottes ; la publicité et la création de contenu, où les logos et les visuels riches en texte peuvent être rapidement personnalisés ; le développement d’avatars virtuels et d’art grâce à des transferts de style sophistiqués ; et même la préservation culturelle, démontrée par sa capacité à corriger des œuvres de calligraphie classique. Ce mélange de contrôle précis et de transformation créative large positionne Qwen-Image Edit comme un outil polyvalent pour les créateurs professionnels et les utilisateurs occasionnels expérimentant des projets personnels.

Selon l’équipe Qwen, les évaluations sur les benchmarks publics indiquent que Qwen-Image Edit atteint des performances de pointe en matière d’édition d’images. Cela s’appuie sur les solides performances du modèle de base Qwen-Image dans les tâches générales de génération d’images et de rendu de texte, y compris des classements élevés dans des évaluations indépendantes comme AI Arena, où les évaluateurs humains ont comparé les résultats de divers modèles.

Qwen-Image Edit représente une avancée significative dans le développement de l’IA, allant au-delà de la génération à usage unique vers des outils intégrés qui facilitent l’édition, la correction et le raffinement. En fusionnant les forces génératives des grands modèles avec la précision requise pour l’édition professionnelle, il signale une tendance plus large vers des flux de travail créatifs alimentés par l’IA plus sophistiqués et accessibles.