Skywork UniPic 2.0 de Código Abierto: Un Salto Revolucionario en IA Multimodal Unificada

Techpark

La Semana de Lanzamiento de Tecnología de IA de SkyWork, que comenzó el 11 de agosto, se ha caracterizado por una rápida sucesión de lanzamientos de modelos, con una nueva oferta desvelada diariamente hasta el 15 de agosto. Este período intensivo tiene como objetivo presentar modelos de vanguardia adaptados para aplicaciones clave de IA multimodal, siguiendo los lanzamientos anteriores de SkyReels-A3, Matrix-Game 2.0 y Matrix-3D. Un hito significativo llegó el 13 de agosto con la liberación como código abierto de Skywork UniPic 2.0.

UniPic 2.0 está diseñado como un marco eficiente para entrenar y desplegar modelos multimodales unificados. Su ambición principal es crear un modelo generativo “eficiente, de alta calidad y unificado” que integre sin problemas las capacidades de comprensión, generación y edición de imágenes. Para lograr esto, incorpora módulos ligeros de generación y edición junto con componentes robustos de comprensión multimodal para el entrenamiento conjunto. La decisión de liberar UniPic 2.0 como código abierto, incluyendo sus pesos de modelo, código de inferencia y estrategias de optimización, es un paso para empoderar a desarrolladores e investigadores, acelerando el despliegue y desarrollo de nuevas aplicaciones multimodales.

La arquitectura de Skywork UniPic 2.0 se basa en tres módulos fundamentales. Primero, el módulo de generación y edición de imágenes, que aprovecha la arquitectura SD3.5-Medium, ha sido significativamente mejorado. Originalmente diseñado para entrada de solo texto, ahora procesa datos de texto e imagen simultáneamente. A través de un entrenamiento extenso en conjuntos de datos de alta calidad, su funcionalidad ha evolucionado de la generación de imágenes independiente a un conjunto completo de generación y edición integrado. Segundo, el módulo de capacidad de modelo unificado integra la comprensión, generación y edición. Esto se logra congelando los componentes de generación y edición de imágenes y conectándolos a un modelo multimodal preentrenado, Qwen2.5-VL-7B, a través de un conector especializado. El ajuste fino conjunto tanto del conector como del módulo de generación/edición de imágenes permite un sistema cohesivo capaz de comprender, generar y editar sin problemas. Finalmente, el módulo de post-entrenamiento para la generación y edición de imágenes emplea una novedosa estrategia de refuerzo progresivo de doble tarea basada en Flow-GRPO. Este enfoque innovador permite la optimización colaborativa de ambas tareas de generación y edición sin interferencia mutua, produciendo ganancias de rendimiento más allá de lo que el preentrenamiento estándar por sí solo podría lograr.

Estos avances arquitectónicos se traducen en varias ventajas clave para UniPic 2.0. A pesar de su tamaño relativamente compacto de 2 mil millones de parámetros, basado en la arquitectura SD3.5-Medium, su módulo de generación demuestra un alto rendimiento. Supera notablemente a competidores más grandes como Bagel (7 mil millones de parámetros), OmniGen2 (4 mil millones de parámetros), UniWorld-V1 (12 mil millones de parámetros) y Flux-kontext tanto en los puntos de referencia de generación de imágenes como en los de edición. La capacidad mejorada de aprendizaje por refuerzo, impulsada por la estrategia Flow-GRPO, mejora significativamente la capacidad del modelo para interpretar instrucciones complejas y mantener la coherencia en las tareas de generación y edición, todo ello garantizando una optimización colaborativa sin interferencia entre tareas. Además, la arquitectura unificada ofrece una adaptación escalable, con una integración de extremo a extremo sin fisuras del modelo de generación/edición de imágenes Kontext con arquitecturas multimodales más amplias. Esto permite a los usuarios desplegar rápidamente modelos unificados de comprensión-generación-edición y refinar aún más el rendimiento mediante el ajuste fino del conector ligero.

En pruebas de rendimiento exhaustivas, el modelo UniPic2-SD3.5M-Kontext, con su huella de 2 mil millones de parámetros, logra resultados notables. Supera a Flux.dev (12 mil millones de parámetros) en métricas de generación de imágenes y a Flux-Kontext (12 mil millones de parámetros) en rendimiento de edición. Además, supera a casi todos los modelos unificados existentes, incluidos UniWorld-V1 (19 mil millones de parámetros) y Bagel (14 mil millones de parámetros), en ambas tareas de generación y edición. Cuando se extiende a la arquitectura unificada UniPic2-Metaquery, el modelo demuestra ganancias de rendimiento adicionales, mostrando una escalabilidad impresionante.

Skywork atribuye las capacidades excepcionales de UniPic 2.0 a una optimización rigurosa en todas las etapas de entrenamiento. La fase de preentrenamiento implicó entrenar SD3.5-Medium para sintetizar imágenes a partir de instrucciones textuales y de imágenes de referencia, preservando su arquitectura original. Esta metodología permitió tanto la generación de texto a imagen (T2I) como la edición de imagen condicionada por texto (I2I). Durante el entrenamiento conjunto, se implementó el marco Metaquery para alinear Qwen2.5-VL (un modelo multimodal) con el modelo de síntesis de imágenes, creando una arquitectura unificada. Esto implicó el preentrenamiento del conector en más de 100 millones de muestras de generación de imágenes curadas para asegurar una alineación precisa de características, seguido por un SFT (ajuste fino supervisado) conjunto donde tanto el conector como el modelo UniPic2-SD3.5M-Kontext fueron ajustados finamente en conjuntos de datos de alta calidad. Este proceso no solo preservó la comprensión del modelo multimodal base, sino que también mejoró la generación y la edición. La etapa final de post-entrenamiento empleó una estrategia pionera de refuerzo de doble tarea progresiva basada en Flow-GRPO. Este enfoque innovador optimiza concurrentemente la generación de texto a imagen y la edición de imágenes dentro de una arquitectura unificada, representando la primera instancia demostrada de mejora de tareas sin interferencias y sinérgicas en el desarrollo de modelos multimodales.

Skywork continúa empujando los límites de la IA, habiendo liberado recientemente como código abierto varios modelos fundamentales de vanguardia. Estos incluyen la serie SkyReels para la generación de video, desde la producción de cortometrajes impulsada por IA hasta la generación cinematográfica de duración ilimitada y videos de retratos impulsados por audio. En IA multimodal, Skywork también ha introducido la serie Skywork-R1V, un modelo de razonamiento multimodal de 38 mil millones de parámetros que rivaliza con modelos propietarios más grandes, y sistemas pioneros de inteligencia espacial como el modelo de mundo interactivo Matrix-Game 2.0 y el modelo de mundo generativo Matrix-3D.