X-Omni de Tencent: IA de código abierto desafía a GPT-4o en generación de imágenes
Tencent ha presentado X-Omni, un nuevo modelo de inteligencia artificial diseñado para generar imágenes de alta calidad, con un enfoque particular en la representación precisa de texto dentro de esas imágenes. Esta innovación posiciona a X-Omni como un retador directo de sistemas establecidos como GPT-4o de OpenAI, aprovechando un enfoque novedoso que aborda las debilidades comunes en las arquitecturas de generación de imágenes existentes.
Los modelos tradicionales de IA autorregresivos, que construyen imágenes secuencialmente pieza por pieza, a menudo acumulan errores a medida que generan contenido, lo que lleva a una degradación en la calidad general de la imagen. Para contrarrestar esto, muchos sistemas contemporáneos adoptan una estrategia híbrida, combinando modelos autorregresivos para la planificación semántica de alto nivel con modelos de difusión para la intrincada creación final de la imagen. Sin embargo, este enfoque híbrido introduce su propio obstáculo: los tokens semánticos producidos por el componente autorregresivo con frecuencia no se alinean perfectamente con las expectativas del decodificador de difusión. El equipo de investigación de Tencent se embarcó en el proyecto X-Omni específicamente para cerrar esta brecha crítica, empleando un sofisticado marco de aprendizaje por refuerzo.
En su esencia, X-Omni integra un modelo autorregresivo responsable de generar tokens semánticos con el modelo de difusión FLUX.1-dev, desarrollado por la startup alemana Black Forest Labs, que sirve como su decodificador. A diferencia de los sistemas híbridos anteriores que entrenan estos dos componentes de forma aislada, X-Omni emplea una metodología unificada de aprendizaje por refuerzo. Esto permite que el sistema aprenda colaborativamente, con una tubería de evaluación que proporciona retroalimentación en tiempo real sobre la calidad de la imagen. Este proceso iterativo permite que el modelo autorregresivo genere progresivamente tokens que el decodificador de difusión puede interpretar de manera más efectiva, lo que lleva a una mejora constante en la salida. Los investigadores informan que después de solo 200 pasos de entrenamiento, X-Omni superó los puntos de referencia de rendimiento de los métodos de entrenamiento híbridos convencionales.
La arquitectura de X-Omni se basa en la tokenización semántica, yendo más allá de la simple manipulación de píxeles. Utiliza un tokenizador SigLIP-VQ para descomponer imágenes en 16.384 tokens semánticos distintos, cada uno representando conceptos abstractos en lugar de detalles granulares de píxeles. El modelo de lenguaje fundamental para X-Omni es el Qwen2.5-7B de código abierto de Alibaba, aumentado con capas adicionales específicamente para el procesamiento de imágenes. Para garantizar un entrenamiento y una evaluación robustos, Tencent desarrolló una tubería de evaluación integral, que incorpora una puntuación de preferencia humana para la calidad estética, un modelo dedicado para puntuar imágenes de alta resolución y el modelo de visión-lenguaje Qwen2.5-VL-32B para verificar la adhesión a la instrucción. Para evaluar la precisión del texto dentro de las imágenes, el equipo se basó en sistemas OCR establecidos como GOT-OCR-2.0 y PaddleOCR.
X-Omni destaca notablemente en la incrustación de texto dentro de las imágenes. En los puntos de referencia estándar, logró una impresionante puntuación de 0.901 para la representación de texto en inglés, superando a todos los sistemas comparables. Para el texto en chino, X-Omni incluso logró superar ligeramente a GPT-4o. Para probar rigurosamente su capacidad con pasajes más largos, el equipo introdujo un nuevo punto de referencia LongText, donde X-Omni demostró una clara ventaja sobre la mayoría de los competidores, particularmente para el contenido en chino. Más allá del texto, X-Omni también se desempeñó fuertemente en la generación general de imágenes, con una puntuación de 87.65 en el punto de referencia DPG, la más alta entre todos los “modelos unificados” y superando marginalmente a GPT-4o. El modelo también demostró competencia en tareas de comprensión de imágenes, incluso superando a algunos modelos especializados en el OCRBench.
Si bien las ganancias de rendimiento de X-Omni sobre algunos competidores son a menudo incrementales, su importancia radica en su innovador enfoque de aprendizaje por refuerzo y, quizás más notablemente, en su integración estratégica de diversas herramientas de código abierto de varios equipos de investigación, incluidos los de la competencia. Esta filosofía modular y de código abierto permite que X-Omni se mantenga firme frente a ofertas propietarias como las de OpenAI. Tencent ha puesto X-Omni a disposición del público como código abierto tanto en Hugging Face como en GitHub, marcando un paso significativo hacia el fomento de avances colaborativos en el campo en rápida evolución de la IA generativa.