Skywork UniPic 2.0 Open-Source: KI-Durchbruch für vereinheitlichte Multimodalität
Die SkyWork KI-Technologie-Veröffentlichungswoche, die am 11. August begann, war geprägt von einer raschen Abfolge von Modellveröffentlichungen, wobei täglich bis zum 15. August ein neues Angebot enthüllt wurde. Diese intensive Phase zielt darauf ab, nach den früheren Starts von SkyReels-A3, Matrix-Game 2.0 und Matrix-3D, hochmoderne Modelle einzuführen, die auf zentrale multimodale KI-Anwendungen zugeschnitten sind. Ein bedeutendes Highlight war am 13. August die Open-Source-Veröffentlichung von Skywork UniPic 2.0.
UniPic 2.0 ist als effizientes Framework für das Training und die Bereitstellung von vereinheitlichten multimodalen Modellen konzipiert. Sein Kernziel ist es, ein „effizientes, hochwertiges und vereinheitlichtes“ generatives Modell zu schaffen, das Verständnis, Bildgenerierung und -bearbeitung nahtlos integriert. Um dies zu erreichen, integriert es leichte Generierungs- und Bearbeitungsmodule neben robusten multimodalen Verständniskomponenten für das gemeinsame Training. Die Entscheidung, UniPic 2.0 als Open-Source zu veröffentlichen, einschließlich seiner Modellgewichte, des Inferenzcodes und der Optimierungsstrategien, ist ein Schritt, um Entwickler und Forscher zu befähigen und die Bereitstellung und Entwicklung neuer multimodaler Anwendungen zu beschleunigen.
Die Architektur von Skywork UniPic 2.0 basiert auf drei grundlegenden Modulen. Erstens wurde das Modul zur Bildgenerierung und -bearbeitung, das die SD3.5-Medium-Architektur nutzt, erheblich verbessert. Ursprünglich für reine Texteingaben konzipiert, verarbeitet es nun gleichzeitig Text- und Bilddaten. Durch umfangreiches Training auf hochwertigen Datensätzen hat sich seine Funktionalität von der eigenständigen Bildgenerierung zu einer vollständig integrierten Generierungs- und Bearbeitungssuite entwickelt. Zweitens integriert das Modul für vereinheitlichte Modellfähigkeiten Verständnis, Generierung und Bearbeitung. Dies wird erreicht, indem die Bildgenerierungs- und -bearbeitungskomponenten eingefroren und über einen speziellen Konnektor mit einem vortrainierten multimodalen Modell, Qwen2.5-VL-7B, verbunden werden. Ein gemeinsames Fine-Tuning sowohl des Konnektors als auch des Bildgenerierungs-/Bearbeitungsmoduls ermöglicht dann ein kohärentes System, das nahtloses Verständnis, Generierung und Bearbeitung ermöglicht. Schließlich verwendet das Post-Training-Modul für die Bildgenerierung und -bearbeitung eine neuartige, auf Flow-GRPO basierende progressive Dual-Task-Reinforcement-Strategie. Dieser innovative Ansatz ermöglicht die kollaborative Optimierung beider Generierungs- und Bearbeitungsaufgaben ohne gegenseitige Beeinflussung, was Leistungssteigerungen über das hinausgeht, was allein durch Standard-Pre-Training erreicht werden könnte.
Diese architektonischen Fortschritte führen zu mehreren entscheidenden Vorteilen für UniPic 2.0. Trotz seiner relativ kompakten Größe von 2 Milliarden Parametern, basierend auf der SD3.5-Medium-Architektur, zeigt sein Generierungsmodul eine hohe Leistung. Es übertrifft bemerkenswerterweise größere Konkurrenten wie Bagel (7B Parameter), OmniGen2 (4B Parameter), UniWorld-V1 (12B Parameter) und Flux-kontext sowohl bei der Bildgenerierung als auch bei der Bearbeitung. Die verbesserte Reinforcement-Learning-Fähigkeit, angetrieben durch die Flow-GRPO-Strategie, verbessert die Fähigkeit des Modells erheblich, komplexe Anweisungen zu interpretieren und die Konsistenz über Generierungs- und Bearbeitungsaufgaben hinweg aufrechtzuerhalten, während gleichzeitig eine kollaborative Optimierung ohne gegenseitige Aufgabeninterferenz gewährleistet wird. Darüber hinaus bietet die vereinheitlichte Architektur eine skalierbare Anpassung mit nahtloser End-to-End-Integration des Kontext-Bildgenerierungs-/Bearbeitungsmodells in breitere multimodale Architekturen. Dies ermöglicht es Benutzern, vereinheitlichte Verständnis-, Generierungs- und Bearbeitungsmodelle schnell bereitzustellen und die Leistung durch leichtes Konnektor-Fine-Tuning weiter zu verfeinern.
In umfassenden Benchmarks erzielt das UniPic2-SD3.5M-Kontext-Modell mit seinen 2 Milliarden Parametern bemerkenswerte Ergebnisse. Es übertrifft Flux.dev (12B Parameter) bei den Bildgenerierungsmetriken und Flux-Kontext (12B Parameter) bei der Bearbeitungsleistung. Darüber hinaus übertrifft es nahezu alle bestehenden vereinheitlichten Modelle, einschließlich UniWorld-V1 (19B Parameter) und Bagel (14B Parameter), sowohl bei den Generierungs- als auch bei den Bearbeitungsaufgaben. Wenn es in die vereinheitlichte UniPic2-Metaquery-Architektur erweitert wird, zeigt das Modell zusätzliche Leistungssteigerungen und eine beeindruckende Skalierbarkeit.
Skywork führt die außergewöhnlichen Fähigkeiten von UniPic 2.0 auf eine rigorose Optimierung in allen Trainingsphasen zurück. Die Vortrainingsphase umfasste das Training von SD3.5-Medium zur Synthese von Bildern aus textlichen Anweisungen und Referenzbildern, wobei seine ursprüngliche Architektur beibehalten wurde. Diese Methodik ermöglichte sowohl die Text-zu-Bild (T2I)-Generierung als auch die textbedingte Bildbearbeitung (I2I). Während des gemeinsamen Trainings wurde das Metaquery-Framework implementiert, um Qwen2.5-VL (ein multimodales Modell) mit dem Bildsynthesemodell auszurichten und so eine vereinheitlichte Architektur zu schaffen. Dies umfasste das Vortraining des Konnektors auf über 100 Millionen kuratierten Bildgenerierungsproben, um eine präzise Feature-Ausrichtung zu gewährleisten, gefolgt von einem gemeinsamen SFT (Supervised Fine-Tuning), bei dem sowohl der Konnektor als auch das UniPic2-SD3.5M-Kontext-Modell auf hochwertigen Datensätzen feinabgestimmt wurden. Dieser Prozess bewahrte nicht nur das Verständnis des Basis-Multimodalmodells, sondern verbesserte auch die Generierung und Bearbeitung. Die letzte Post-Trainingsphase nutzte eine wegweisende progressive Flow-GRPO-basierte Dual-Task-Reinforcement-Strategie. Dieser bahnbrechende Ansatz optimiert gleichzeitig die Text-zu-Bild-Generierung und die Bildbearbeitung innerhalb einer vereinheitlichten Architektur und stellt das erste demonstrierte Beispiel für eine störungsfreie, synergetische Aufgabenverbesserung in der multimodalen Modellentwicklung dar.
Skywork verschiebt weiterhin die Grenzen der KI und hat kürzlich mehrere hochmoderne Grundmodelle als Open-Source veröffentlicht. Dazu gehören die SkyReels-Serie für die Videogenerierung – von KI-gesteuerter Kurzfilmproduktion über unbegrenzte kinoreife Generierung bis hin zu audio-gesteuerten Porträtvideos. Im Bereich der multimodalen KI hat Skywork auch die Skywork-R1V-Serie eingeführt, ein multimodales Reasoning-Modell mit 38 Milliarden Parametern, das mit größeren proprietären Modellen konkurriert, sowie wegweisende räumliche Intelligenzsysteme wie das interaktive Weltmodell Matrix-Game 2.0 und das generative Weltmodell Matrix-3D.