Hunyuan-Large-Vision de Tencent : Le Modèle d'IA Multimodal Leader en Chine
Tencent a dévoilé Hunyuan-Large-Vision, un nouveau modèle d’intelligence artificielle multimodale qui s’est rapidement imposé comme un chef de file dans le paysage concurrentiel de l’IA en Chine. Le modèle est désormais en tête de toutes les entrées chinoises sur le classement LMArena Vision Leaderboard, se positionnant directement derrière les modèles occidentaux de premier plan tels que GPT-5 et Gemini 2.5 Pro.
Construit sur une architecture sophistiquée de mélange d’experts (mixture-of-experts), Hunyuan-Large-Vision affiche un nombre impressionnant de 389 milliards de paramètres, dont 52 milliards sont activement engagés pendant le fonctionnement. Cette conception permet au modèle d’activer sélectivement uniquement les composants les plus pertinents pour une tâche donnée, améliorant ainsi l’efficacité et les performances. Ses capacités seraient comparables à celles de Claude Sonnet 3.5, un modèle de premier plan à part entière. Sur le OpenCompass Academic Benchmark, Tencent rapporte que Hunyuan-Large-Vision a obtenu un score moyen de 79,5, démontrant ses solides prouesses analytiques.
Le nouveau modèle a surpassé son prédécesseur, Qwen2.5-VL, en tant que concurrent chinois le mieux classé sur le LMArena Vision Leaderboard, qui classe les modèles d’images IA en fonction des préférences de la communauté lors de comparaisons directes. Hunyuan-Large-Vision présente des performances exceptionnelles dans un large éventail de tâches visuelles et linguistiques. Bien que les comparaisons avec les modèles occidentaux soient notables, il convient de noter que les benchmarks occidentaux utilisés dans ces comparaisons ne reflètent pas toujours les dernières versions.
Tencent a démontré la polyvalence du modèle à travers une gamme diversifiée d’applications. Il peut identifier avec précision des espèces végétales spécifiques, telles que l’Iris lactea, et même composer de la poésie inspirée d’une photographie de la Seine. Au-delà des efforts créatifs, il offre des conseils stratégiques dans des jeux complexes comme le Go et démontre sa maîtrise de la traduction de questions dans diverses langues, y compris les moins courantes, une amélioration significative par rapport aux modèles de vision antérieurs de Tencent.
À la base, Hunyuan-Large-Vision intègre trois modules principaux : un transformateur de vision personnalisé avec un milliard de paramètres dédié au traitement des informations visuelles, un module connecteur conçu pour relier de manière transparente la vision et la compréhension du langage, et un modèle de langage tirant parti de la technique du mélange d’experts. Le transformateur de vision a subi une formation initiale pour établir des connexions entre les images et le texte, suivie d’un affinement approfondi utilisant plus d’un billion d’échantillons de texte multimodal. Cette formation rigoureuse lui a permis de surpasser d’autres modèles populaires dans des tâches multimodales complexes.
Tencent a également mis en œuvre un nouveau pipeline de formation pour les données multimodales. Ce système transforme de vastes quantités de données brutes bruyantes en données d’instruction de haute qualité, en employant une IA pré-entraînée et des outils spécialisés. Le résultat est un ensemble de données massif de plus de 400 milliards d’échantillons de texte multimodal couvrant la reconnaissance visuelle, les mathématiques, le raisonnement scientifique et la reconnaissance optique de caractères (OCR). L’affinement ultérieur du modèle a impliqué une technique appelée échantillonnage par rejet (Rejection Sampling), où plusieurs réponses sont générées pour une invite donnée, et seules les meilleures sont conservées. Des outils automatisés ont également été utilisés pour filtrer les erreurs et les redondances, et les réponses complexes ont été distillées sous des formes plus concises pour améliorer l’efficacité du raisonnement.
Le processus de formation lui-même a bénéficié du cadre Angel-PTM de Tencent et d’une stratégie d’équilibrage de charge multiniveau. Ces innovations ont considérablement réduit les goulots d’étranglement du GPU de 18,8 %, accélérant le calendrier global de formation.
Actuellement, Hunyuan-Large-Vision est exclusivement disponible via API sur Tencent Cloud. Contrairement à certains des modèles d’IA précédents de Tencent, cette version n’est pas open source. Compte tenu de ses 389 milliards de paramètres, l’exécution du modèle sur du matériel grand public typique serait impraticable, ce qui souligne sa conception pour des applications cloud à grande échelle.