Skywork UniPic 2.0 Open-Source : Une Avancée Majeure en IA Multimodale Unifiée
La Semaine de Publication de la Technologie IA de SkyWork, qui a débuté le 11 août, a été marquée par une succession rapide de lancements de modèles, avec une nouvelle offre dévoilée quotidiennement jusqu’au 15 août. Cette période intensive vise à introduire des modèles de pointe adaptés aux applications d’IA multimodales essentielles, suite aux lancements précédents de SkyReels-A3, Matrix-Game 2.0 et Matrix-3D. Un événement marquant est survenu le 13 août avec l’ouverture du code de Skywork UniPic 2.0.
UniPic 2.0 est conçu comme un cadre efficace pour l’entraînement et le déploiement de modèles multimodaux unifiés. Son ambition principale est de créer un modèle génératif “efficace, de haute qualité et unifié” qui intègre de manière transparente les capacités de compréhension, de génération et d’édition d’images. Pour y parvenir, il intègre des modules légers de génération et d’édition aux côtés de composants robustes de compréhension multimodale pour un entraînement conjoint. La décision d’ouvrir le code d’UniPic 2.0, y compris ses poids de modèle, son code d’inférence et ses stratégies d’optimisation, est une initiative visant à autonomiser les développeurs et les chercheurs, accélérant le déploiement et le développement de nouvelles applications multimodales.
L’architecture de Skywork UniPic 2.0 repose sur trois modules fondamentaux. Premièrement, le module de génération et d’édition d’images, qui exploite l’architecture SD3.5-Medium, a été considérablement amélioré. Conçu à l’origine pour une entrée textuelle uniquement, il traite désormais simultanément les données textuelles et imagées. Grâce à un entraînement intensif sur des ensembles de données de haute qualité, sa fonctionnalité a évolué de la génération d’images autonome vers une suite complète de génération et d’édition intégrée. Deuxièmement, le module de capacité de modèle unifié intègre la compréhension, la génération et l’édition. Ceci est réalisé en figeant les composants de génération et d’édition d’images et en les connectant à un modèle multimodal pré-entraîné, Qwen2.5-VL-7B, via un connecteur spécialisé. Le réglage fin conjoint du connecteur et du module de génération/édition d’images permet alors un système cohérent capable de comprendre, générer et éditer de manière transparente. Enfin, le module de post-entraînement pour la génération et l’édition d’images utilise une nouvelle stratégie de renforcement progressif à double tâche basée sur Flow-GRPO. Cette approche innovante permet l’optimisation collaborative des tâches de génération et d’édition sans interférence mutuelle, produisant des gains de performance au-delà de ce que le pré-entraînement standard seul pourrait atteindre.
Ces avancées architecturales se traduisent par plusieurs avantages clés pour UniPic 2.0. Malgré sa taille relativement compacte de 2 milliards de paramètres, basée sur l’architecture SD3.5-Medium, son module de génération démontre des performances élevées. Il surpasse notamment ses concurrents plus grands tels que Bagel (7 milliards de paramètres), OmniGen2 (4 milliards de paramètres), UniWorld-V1 (12 milliards de paramètres) et Flux-kontext dans les benchmarks de génération et d’édition d’images. La capacité d’apprentissage par renforcement améliorée, pilotée par la stratégie Flow-GRPO, améliore considérablement la capacité du modèle à interpréter des instructions complexes et à maintenir la cohérence entre les tâches de génération et d’édition, tout en assurant une optimisation collaborative sans interférence entre les tâches. De plus, l’architecture unifiée offre une adaptation évolutive, avec une intégration de bout en bout transparente du modèle de génération/édition d’images Kontext avec des architectures multimodales plus larges. Cela permet aux utilisateurs de déployer rapidement des modèles unifiés de compréhension-génération-édition et d’affiner davantage les performances grâce à un réglage fin léger du connecteur.
Lors de benchmarks complets, le modèle UniPic2-SD3.5M-Kontext, avec son empreinte de 2 milliards de paramètres, atteint des résultats remarquables. Il surpasse Flux.dev (12 milliards de paramètres) en termes de métriques de génération d’images et Flux-Kontext (12 milliards de paramètres) en termes de performances d’édition. De plus, il surpasse presque tous les modèles unifiés existants, y compris UniWorld-V1 (19 milliards de paramètres) et Bagel (14 milliards de paramètres), sur les tâches de génération et d’édition. Lorsqu’il est étendu à l’architecture unifiée UniPic2-Metaquery, le modèle démontre des gains de performance supplémentaires, démontrant une évolutivité impressionnante.
Skywork attribue les capacités exceptionnelles d’UniPic 2.0 à une optimisation rigoureuse à toutes les étapes de l’entraînement. La phase de pré-entraînement a impliqué l’entraînement de SD3.5-Medium pour synthétiser des images à partir d’instructions textuelles et d’images de référence tout en préservant son architecture originale. Cette méthodologie a permis à la fois la génération de texte à image (T2I) et l’édition d’image conditionnée par le texte (I2I). Pendant l’entraînement conjoint, le cadre Metaquery a été mis en œuvre pour aligner Qwen2.5-VL (un modèle multimodal) avec le modèle de synthèse d’images, créant ainsi une architecture unifiée. Cela a impliqué un pré-entraînement du connecteur sur plus de 100 millions d’échantillons de génération d’images organisés pour assurer un alignement précis des caractéristiques, suivi d’un SFT (Supervised Fine-Tuning) conjoint où le connecteur et le modèle UniPic2-SD3.5M-Kontext ont été affinés sur des ensembles de données de haute qualité. Ce processus a non seulement préservé la compréhension du modèle multimodal de base, mais a également amélioré la génération et l’édition. La dernière étape de post-entraînement a utilisé une stratégie pionnière de renforcement à double tâche progressive basée sur Flow-GRPO. Cette approche révolutionnaire optimise simultanément la génération de texte à image et l’édition d’images au sein d’une architecture unifiée, représentant la première instance démontrée d’amélioration de tâche synergique et sans interférence dans le développement de modèles multimodaux.
Skywork continue de repousser les limites de l’IA, ayant récemment ouvert le code de plusieurs modèles fondamentaux de pointe. Ceux-ci incluent la série SkyReels pour la génération vidéo – de la production de courts métrages pilotée par l’IA à la génération cinématographique de durée illimitée et aux vidéos de portraits pilotées par l’audio. En IA multimodale, Skywork a également introduit la série Skywork-R1V, un modèle de raisonnement multimodal de 38 milliards de paramètres qui rivalise avec les modèles propriétaires plus grands, et des systèmes pionniers d’intelligence spatiale comme le modèle de monde interactif Matrix-Game 2.0 et le modèle de monde génératif Matrix-3D.