Hunyuan-Large-Vision de Tencent: El Modelo de IA Multimodal Líder de China
Tencent ha presentado Hunyuan-Large-Vision, un nuevo modelo de inteligencia artificial multimodal que se ha establecido rápidamente como un líder en el competitivo panorama de la IA en China. El modelo ahora encabeza todas las entradas chinas en la LMArena Vision Leaderboard, posicionándose directamente detrás de modelos occidentales de primer nivel como GPT-5 y Gemini 2.5 Pro.
Construido sobre una sofisticada arquitectura de mezcla de expertos, Hunyuan-Large-Vision cuenta con unos impresionantes 389 mil millones de parámetros, con 52 mil millones activamente comprometidos durante la operación. Este diseño permite que el modelo active selectivamente solo los componentes más relevantes para una tarea dada, mejorando la eficiencia y el rendimiento. Sus capacidades son, según se informa, comparables a las de Claude Sonnet 3.5, un modelo líder por derecho propio. En el OpenCompass Academic Benchmark, Tencent informa que Hunyuan-Large-Vision logró una puntuación promedio de 79.5, demostrando su robusta destreza analítica.
El nuevo modelo ha superado a su predecesor, Qwen2.5-VL, como el contendiente chino mejor valorado en la LMArena Vision Leaderboard, que clasifica los modelos de imágenes de IA basándose en las preferencias de la comunidad en comparaciones directas. Hunyuan-Large-Vision exhibe un rendimiento excepcional en una amplia gama de tareas visuales y de lenguaje. Si bien las comparaciones con los modelos occidentales son notables, vale la pena señalar que los puntos de referencia occidentales utilizados en estas comparaciones no siempre reflejan las últimas versiones.
Tencent mostró la versatilidad del modelo a través de una diversa gama de aplicaciones. Puede identificar con precisión especies de plantas específicas, como Iris lactea, e incluso componer poesía inspirada en una fotografía del río Sena. Más allá de los esfuerzos creativos, ofrece asesoramiento estratégico en juegos complejos como el Go y demuestra competencia en la traducción de preguntas a varios idiomas, incluidos los menos comunes, una mejora significativa con respecto a los modelos de visión anteriores de Tencent.
En su núcleo, Hunyuan-Large-Vision integra tres módulos principales: un transformador de visión personalizado con mil millones de parámetros dedicado al procesamiento de información visual, un módulo conector diseñado para unir sin problemas la visión y la comprensión del lenguaje, y un modelo de lenguaje que aprovecha la técnica de mezcla de expertos. El transformador de visión se sometió a un entrenamiento inicial para establecer conexiones entre imágenes y texto, seguido de un extenso refinamiento utilizando más de un billón de muestras de texto multimodal. Este riguroso entrenamiento le ha permitido superar a otros modelos populares en tareas multimodales complejas.
Tencent también ha implementado una novedosa tubería de entrenamiento para datos multimodales. Este sistema transforma vastas cantidades de datos brutos ruidosos en datos de instrucción de alta calidad, empleando IA preentrenada y herramientas especializadas. El resultado es un conjunto de datos masivo de más de 400 mil millones de muestras de texto multimodal que abarcan reconocimiento visual, matemáticas, razonamiento científico y reconocimiento óptico de caracteres (OCR). Un refinamiento adicional del modelo implicó una técnica llamada Muestreo por Rechazo, donde se generan múltiples respuestas para una determinada indicación, y solo se retienen las mejores. También se utilizaron herramientas automatizadas para filtrar errores y redundancias, y las respuestas complejas se destilaron en formas más concisas para mejorar la eficiencia del razonamiento.
El proceso de entrenamiento en sí se benefició del marco Angel-PTM de Tencent y de una estrategia de equilibrio de carga multinivel. Estas innovaciones redujeron significativamente los cuellos de botella de la GPU en un 18.8 por ciento, acelerando el cronograma general de entrenamiento.
Actualmente, Hunyuan-Large-Vision está disponible exclusivamente a través de API en Tencent Cloud. A diferencia de algunos modelos de IA anteriores de Tencent, esta versión no es de código abierto. Dado su sustancial tamaño de 389 mil millones de parámetros, ejecutar el modelo en hardware de consumo típico sería poco práctico, lo que subraya su diseño para aplicaciones a gran escala basadas en la nube.