X-Omni de Tencent : L'IA open source défie GPT-4o en génération d'images
Tencent a dévoilé X-Omni, un nouveau modèle d’intelligence artificielle conçu pour générer des images de haute qualité, avec un accent particulier sur le rendu précis du texte dans ces visuels. Cette innovation positionne X-Omni comme un concurrent direct des systèmes établis comme GPT-4o d’OpenAI, en tirant parti d’une approche novatrice qui aborde les faiblesses courantes des architectures de génération d’images existantes.
Les modèles d’IA autorégressifs traditionnels, qui construisent les images séquentiellement pièce par pièce, accumulent souvent des erreurs à mesure qu’ils génèrent du contenu, ce qui entraîne une dégradation de la qualité globale de l’image. Pour contrer cela, de nombreux systèmes contemporains adoptent une stratégie hybride, combinant des modèles autorégressifs pour la planification sémantique de haut niveau avec des modèles de diffusion pour la création finale complexe de l’image. Cependant, cette approche hybride introduit son propre obstacle : les jetons sémantiques produits par le composant autorégressif ne s’alignent fréquemment pas de manière transparente avec les attentes du décodeur de diffusion. L’équipe de recherche de Tencent s’est lancée dans le projet X-Omni spécifiquement pour combler cette lacune critique, en employant un cadre sophistiqué d’apprentissage par renforcement.
Au cœur de X-Omni, un modèle autorégressif responsable de la génération de jetons sémantiques est intégré au modèle de diffusion FLUX.1-dev, développé par la startup allemande Black Forest Labs, qui sert de décodeur. Contrairement aux systèmes hybrides précédents qui entraînaient ces deux composants de manière isolée, X-Omni utilise une méthodologie unifiée d’apprentissage par renforcement. Cela permet au système d’apprendre de manière collaborative, avec un pipeline d’évaluation fournissant un retour d’information en temps réel sur la qualité de l’image. Ce processus itératif permet au modèle autorégressif de générer progressivement des jetons que le décodeur de diffusion peut interpréter plus efficacement, ce qui conduit à une amélioration constante de la sortie. Les chercheurs rapportent qu’après seulement 200 étapes d’entraînement, X-Omni a dépassé les performances de référence des méthodes d’entraînement hybrides conventionnelles.
L’architecture de X-Omni est enracinée dans la tokenisation sémantique, allant au-delà de la simple manipulation de pixels. Elle utilise un tokeniseur SigLIP-VQ pour décomposer les images en 16 384 jetons sémantiques distincts, chacun représentant des concepts abstraits plutôt que des détails granulaires de pixels. Le modèle de langage fondamental pour X-Omni est le Qwen2.5-7B open source d’Alibaba, augmenté de couches supplémentaires spécifiquement pour le traitement d’images. Pour assurer un entraînement et une évaluation robustes, Tencent a développé un pipeline d’évaluation complet, incorporant un score de préférence humaine pour la qualité esthétique, un modèle dédié pour noter les images haute résolution, et le modèle de vision-langage Qwen2.5-VL-32B pour vérifier l’adhérence à l’invite. Pour évaluer la précision du texte dans les images, l’équipe s’est appuyée sur des systèmes OCR établis comme GOT-OCR-2.0 et PaddleOCR.
X-Omni excelle notamment dans l’intégration de texte dans les images. Sur les benchmarks standard, il a atteint un score impressionnant de 0,901 pour le rendu de texte anglais, surpassant tous les systèmes comparables. Pour le texte chinois, X-Omni a même réussi à devancer légèrement GPT-4o. Pour tester rigoureusement sa capacité avec des passages plus longs, l’équipe a introduit un nouveau benchmark LongText, où X-Omni a démontré une nette avance sur la plupart des concurrents, en particulier pour le contenu chinois. Au-delà du texte, X-Omni a également réalisé de solides performances en génération d’images générales, obtenant un score de 87,65 sur le benchmark DPG – le plus élevé parmi tous les “modèles unifiés” et dépassant marginalement GPT-4o. Le modèle a en outre démontré sa compétence dans les tâches de compréhension d’images, surpassant même certains modèles spécialisés dans l’OCRBench.
Bien que les gains de performance de X-Omni par rapport à certains concurrents soient souvent incrémentaux, son importance réside dans son approche innovante d’apprentissage par renforcement et, peut-être plus notablement, dans son intégration stratégique de divers outils open source provenant de diverses équipes de recherche, y compris celles de concurrents. Cette philosophie modulaire et open source permet à X-Omni de se tenir fermement face aux offres propriétaires comme celles d’OpenAI. Tencent a rendu X-Omni publiquement disponible en open source sur Hugging Face et GitHub, marquant une étape significative vers la promotion des avancées collaboratives dans le domaine en évolution rapide de l’IA générative.