Qwen-Image-Edit: Fortschrittliche KI für semantische & visuelle Bildbearbeitung

Marktechpost

In einem bedeutenden Fortschritt für multimodale künstliche Intelligenz hat Alibabas Qwen-Team Qwen-Image-Edit vorgestellt, ein anweisungsbasiertes Bildbearbeitungsmodell, das auf der robusten 20-Milliarden-Parameter-Qwen-Image-Grundlage aufbaut. Diese neue Iteration, die im August 2025 veröffentlicht wurde, führt hochentwickelte Funktionen für die semantische und visuelle Bearbeitung ein, während die bemerkenswerte Stärke von Qwen-Image bei der Darstellung komplexer Texte in Englisch und Chinesisch erhalten bleibt. Die Integration mit Qwen Chat und die Verfügbarkeit über Hugging Face zielen darauf ab, die professionelle Inhaltserstellung zu demokratisieren, vom anfänglichen Design geistigen Eigentums bis zur komplexen Fehlerkorrektur in KI-generierten Kunstwerken.

Das technische Rückgrat von Qwen-Image-Edit erweitert die Multimodal Diffusion Transformer (MMDiT)-Architektur. Dieses Framework integriert ein Qwen2.5-VL multimodales großes Sprachmodell (MLLM) für eine umfassende Textkonditionierung, einen Variational AutoEncoder (VAE) für eine effiziente Bildtokenisierung und den MMDiT selbst als zentrale Verarbeitungseinheit für die gemeinsame Modellierung. Eine Schlüsselinnovation für Bearbeitungsaufgaben ist sein dualer Kodierungsmechanismus: Ein Eingabebild wird gleichzeitig vom Qwen2.5-VL für ein hochrangiges semantisches Verständnis und vom VAE zur Erfassung von niedrigrangigen Rekonstruktionsdetails verarbeitet. Diese unterschiedlichen Merkmalsätze werden dann innerhalb des MMDiT-Bildstroms verkettet, was ein feines Gleichgewicht zwischen der Aufrechterhaltung semantischer Kohärenz – wie der Beibehaltung der Objektidentität bei einer Posenänderung – und der Sicherstellung visueller Wiedergabetreue, wie dem Unberührtlassen unmodifizierter Regionen, ermöglicht. Um die Anpassungsfähigkeit weiter zu verbessern, wurde die Multimodal Scalable RoPE (MSRoPE)-Positionskodierung mit einer „Frame-Dimension“ erweitert, um zwischen Vor- und Nachbearbeitungsbildern zu unterscheiden, eine entscheidende Funktion für komplexe Text-Bild-zu-Bild (TI2I)-Bearbeitungsaufgaben. Der VAE, speziell auf textreiche Datensätze feinabgestimmt, zeigt eine überlegene Rekonstruktionsqualität und erreicht einen Peak Signal-to-Noise Ratio (PSNR) von 33,42 bei allgemeinen Bildern und beeindruckende 36,63 bei textlastigen Visualisierungen, womit er etablierte Modelle wie FLUX-VAE und SD-3.5-VAE übertrifft. Diese architektonischen Verfeinerungen ermöglichen es Qwen-Image-Edit, anspruchsvolle bilinguale Textbearbeitungen durchzuführen, während die ursprüngliche Schriftart, Größe und der Stil akribisch erhalten bleiben.

Qwen-Image-Edit zeichnet sich in zwei Hauptbereichen der Bildmanipulation aus. Für die visuelle Bearbeitung ermöglicht es präzise, niedrigrangige visuelle Anpassungen, die es Benutzern erlauben, spezifische Elemente hinzuzufügen, zu entfernen oder zu modifizieren – wie das realistische Einbetten von Schildern mit Reflexionen oder das subtile Entfernen einzelner Haarsträhnen – ohne unbeabsichtigt umliegende Bereiche zu verändern. Gleichzeitig ermöglichen seine semantischen Bearbeitungsfunktionen hochrangige konzeptionelle Änderungen, die Aufgaben wie die Erstellung geistigen Eigentums unterstützen, wobei ein Maskottchen in verschiedene MBTI-thematische Emojis umgewandelt werden kann, während die Charakterkonsistenz erhalten bleibt. Es kann auch fortgeschrittene Objektrotationen und Stiltransfers durchführen, ein Porträt in die unverwechselbare Ästhetik einer Studio Ghibli-Animation verwandeln, all dies unter Gewährleistung semantischer Integrität und konsistenter Pixeländerungen. Ein herausragendes Merkmal ist die präzise Textbearbeitung, die sowohl Chinesisch als auch Englisch unterstützt. Benutzer können Text direkt in Bildern hinzufügen, löschen oder ändern, Kalligrafiefehler über Begrenzungsrahmen korrigieren oder Wörter auf einem Poster ändern, wobei stets die ursprünglichen typografischen Attribute erhalten bleiben. Das Modell unterstützt außerdem die „verkettete Bearbeitung“, die iterative Korrekturen ermöglicht, wie die schrittweise Verfeinerung komplexer chinesischer Schriftzeichen bis zur perfekten Genauigkeit. Seine Fähigkeit, eine 180-Grad-Neusynthese von Ansichten durchzuführen, Objekte oder ganze Szenen mit hoher Wiedergabetreue zu rotieren, ist besonders bemerkenswert und erreicht einen PSNR von 15,11 auf dem GSO-Benchmark, ein Wert, der sogar spezialisierte Modelle wie CRM übertrifft.

Die robuste Leistung des Modells ist ein direktes Ergebnis eines umfangreichen Trainings- und Datenpipelines. Qwen-Image-Edit nutzt den sorgfältig kuratierten Datensatz von Qwen-Image, der Milliarden von Bild-Text-Paaren aus verschiedenen Domänen umfasst: Natur (55 %), Design (27 %), Personen (13 %) und Synthetisch (5 %). Es verwendet ein Multitask-Trainingsparadigma, das Text-zu-Bild (T2I), Bild-zu-Bild (I2I) und Text-Bild-zu-Bild (TI2I)-Ziele vereinheitlicht. Eine rigorose siebenstufige Filterpipeline verfeinert diese Daten für optimale Qualität und Balance und integriert innovative synthetische Text-Rendering-Strategien (Pure, Compositional, Complex), um Long-Tail-Probleme zu adressieren, die in chinesischen Schriftzeichen weit verbreitet sind. Der Trainingsprozess verwendet Flow Matching innerhalb eines Producer-Consumer-Frameworks für Skalierbarkeit, gefolgt von überwachten Feinabstimmungs- und Reinforcement-Learning-Techniken wie DPO und GRPO, um das Modell an menschliche Präferenzen anzupassen. Für spezifische Bearbeitungsaufgaben integriert es Funktionen wie die Neusynthese von Ansichten und die Tiefenschätzung, wobei DepthPro als Lehrmodell verwendet wird, was zu seiner starken Leistung in Bereichen wie der Korrektur von Kalligrafiefehlern durch verkettete Bearbeitungen beiträgt.

In Benchmark-Evaluierungen hat Qwen-Image-Edit in mehreren öffentlichen Benchmarks für die Bildbearbeitung modernste Ergebnisse gezeigt. Auf GEdit-Bench-EN erzielte es insgesamt 7,56 und auf GEdit-Bench-CN 7,52, womit es Konkurrenten wie GPT Image 1 (7,53 EN, 7,30 CN) und FLUX.1 Kontext [Pro] (6,56 EN, 1,23 CN) übertraf. Seine Leistung bei ImgEdit ergab eine Gesamtpunktzahl von 4,27, mit besonderen Stärken bei Objektersetzung (4,66) und Stiländerungen (4,81). Für die Tiefenschätzung erreichte es einen absoluten relativen Fehler (AbsRel) von 0,078 auf KITTI, ein Ergebnis, das mit führenden Modellen wie DepthAnything v2 konkurrenzfähig ist. Menschliche Bewertungen, die in der AI Arena durchgeführt wurden, platzierten sein Basismodell zudem an dritter Stelle unter den verfügbaren APIs, was seine überlegenen Fähigkeiten zur Befolgung von Anweisungen und seine mehrsprachige Wiedergabetreue, insbesondere beim Text-Rendering, hervorhebt.

Für Entwickler und Kreative ist Qwen-Image-Edit über Hugging Face Diffusers leicht bereitstellbar und bietet einen optimierten Integrationsprozess. Darüber hinaus bietet Alibabas Cloud Model Studio API-Zugriff für skalierbare Inferenzen. Der Trainingscode ist unter der Apache 2.0-Lizenz auf GitHub öffentlich verfügbar. Diese Zugänglichkeit unterstreicht ein breiteres Engagement zur Förderung von Innovationen im KI-gesteuerten Design. Qwen-Image-Edit stellt einen bedeutenden Sprung in den Vision-Sprach-Schnittstellen dar und ermöglicht eine nahtlosere und präzisere Inhaltsmanipulation für Kreative. Sein einheitlicher Ansatz zum Verständnis und zur Generierung visueller Inhalte deutet auf ein aufregendes Potenzial für zukünftige Erweiterungen in den Video- und 3D-Bereich hin und verspricht, neue Grenzen in KI-gesteuerten Designanwendungen zu erschließen.