Tencents X-Omni: Open-Source-KI fordert GPT-4o im Bild-Text-Gen heraus
Tencent hat X-Omni vorgestellt, ein neues Modell für künstliche Intelligenz, das hochwertige Bilder generieren soll, mit besonderem Fokus auf die genaue Wiedergabe von Text innerhalb dieser visuellen Darstellungen. Diese Innovation positioniert X-Omni als direkten Herausforderer etablierter Systeme wie OpenAIs GPT-4o, indem es einen neuartigen Ansatz nutzt, der gängige Schwächen in bestehenden Bildgenerierungsarchitekturen adressiert.
Traditionelle autoregressive KI-Modelle, die Bilder Stück für Stück sequenziell aufbauen, akkumulieren oft Fehler während der Inhaltserzeugung, was zu einer Verschlechterung der Gesamtbildqualität führt. Um dem entgegenzuwirken, verfolgen viele zeitgenössische Systeme eine hybride Strategie, die autoregressive Modelle für die semantische Planung auf hoher Ebene mit Diffusionsmodellen für die komplizierte endgültige Bildkreation kombiniert. Dieser hybride Ansatz bringt jedoch ein eigenes Hindernis mit sich: Die von der autoregressiven Komponente erzeugten semantischen Tokens stimmen häufig nicht nahtlos mit den Erwartungen des Diffusionsdecoders überein. Das Forschungsteam von Tencent begann das X-Omni-Projekt speziell, um diese kritische Lücke zu schließen, indem es ein ausgeklügeltes Reinforcement Learning Framework einsetzte.
Im Kern integriert X-Omni ein autoregressives Modell, das für die Generierung semantischer Tokens verantwortlich ist, mit dem FLUX.1-dev Diffusionsmodell, das vom deutschen Startup Black Forest Labs entwickelt wurde und als dessen Decoder dient. Im Gegensatz zu früheren Hybridsystemen, die diese beiden Komponenten isoliert trainieren, verwendet X-Omni eine vereinheitlichte Reinforcement Learning Methodik. Dies ermöglicht es dem System, kollaborativ zu lernen, wobei eine Evaluationspipeline Echtzeit-Feedback zur Bildqualität liefert. Dieser iterative Prozess ermöglicht es dem autoregressiven Modell, schrittweise Tokens zu generieren, die der Diffusionsdecoder effektiver interpretieren kann, was zu einer stetigen Verbesserung der Ausgabe führt. Die Forscher berichten, dass X-Omni bereits nach 200 Trainingsschritten die Leistungsbenchmarks konventioneller hybrider Trainingsmethoden übertraf.
X-Omnis Architektur basiert auf semantischer Tokenisierung und geht über einfache Pixelmanipulation hinaus. Es nutzt einen SigLIP-VQ Tokenizer, um Bilder in 16.384 unterschiedliche semantische Tokens zu zerlegen, wobei jeder abstrakte Konzepte und nicht granulare Pixeldetails repräsentiert. Das grundlegende Sprachmodell für X-Omni ist Alibabas Open-Source Qwen2.5-7B, das mit zusätzlichen Schichten speziell für die Bildverarbeitung erweitert wurde. Um ein robustes Training und eine robuste Evaluierung zu gewährleisten, entwickelte Tencent eine umfassende Bewertungs-Pipeline, die eine menschliche Präferenzbewertung für ästhetische Qualität, ein dediziertes Modell zur Bewertung hochauflösender Bilder und das Qwen2.5-VL-32B Vision-Language-Modell zur Überprüfung der Prompt-Konformität umfasst. Zur Beurteilung der Textgenauigkeit innerhalb von Bildern verließ sich das Team auf etablierte OCR-Systeme wie GOT-OCR-2.0 und PaddleOCR.
X-Omni zeichnet sich besonders durch das Einbetten von Text in Bilder aus. Bei Standard-Benchmarks erreichte es eine beeindruckende Punktzahl von 0,901 für die englische Textwiedergabe und übertraf damit alle vergleichbaren Systeme. Bei chinesischem Text gelang es X-Omni sogar, GPT-4o leicht zu übertreffen. Um seine Fähigkeit bei längeren Passagen rigoros zu testen, führte das Team einen neuen LongText-Benchmark ein, bei dem X-Omni einen klaren Vorsprung gegenüber den meisten Konkurrenten zeigte, insbesondere bei chinesischen Inhalten. Neben Text zeigte X-Omni auch eine starke Leistung bei der allgemeinen Bildgenerierung und erreichte 87,65 Punkte im DPG-Benchmark – der höchste Wert unter allen „Unified Models“ und knapp über GPT-4o. Das Modell zeigte auch Kompetenz bei Bildverständnisaufgaben und übertraf sogar einige spezialisierte Modelle im OCRBench.
Obwohl die Leistungssteigerungen von X-Omni gegenüber einigen Konkurrenten oft inkrementell sind, liegt seine Bedeutung in seinem innovativen Reinforcement Learning-Ansatz und, vielleicht noch bemerkenswerter, in seiner strategischen Integration verschiedener Open-Source-Tools von verschiedenen Forschungsteams, einschließlich derer von Konkurrenten. Diese modulare, Open-Source-Philosophie ermöglicht es X-Omni, sich fest gegen proprietäre Angebote wie die von OpenAI zu behaupten. Tencent hat X-Omni als Open-Source-Projekt sowohl auf Hugging Face als auch auf GitHub öffentlich zugänglich gemacht, was einen bedeutenden Schritt zur Förderung kollaborativer Fortschritte im sich schnell entwickelnden Bereich der generativen KI darstellt.