GLM-4.5 de Zhipu AI : un LLM Open Source qui rivalise avec l'Occident

Decoder

La puissance chinoise en IA, Zhipu AI, a dévoilé ses dernières avancées, les familles de modèles GLM-4.5 et GLM-4.5V, signalant une avancée significative dans les grands modèles linguistiques open source conçus pour le raisonnement logique complexe, la programmation sophistiquée et les tâches d’agent autonome. Ces nouveaux modèles sont conçus pour aborder une gamme d’applications pratiques, de la génération de mini-jeux interactifs et de simulations physiques complexes à la production autonome de diapositives de présentation avec des capacités de recherche web intégrées, et même le développement d’applications web complètes englobant à la fois les fonctionnalités front-end et back-end.

La variante multimodale, GLM-4.5V, étend ces capacités en incorporant une analyse avancée d’images et de vidéos. Cette version peut reconstruire des sites web entiers à partir de simples captures d’écran et effectuer des opérations d’écran, permettant des comportements d’agent hautement autonomes. Les utilisateurs peuvent explorer ces fonctionnalités via une interface de style ChatGPT disponible gratuitement sur chat.z.ai après une simple connexion.

La nouvelle gamme de Zhipu AI comprend trois modèles distincts : le robuste GLM-4.5, le GLM-4.5-Air plus économe en ressources, et le multimodal GLM-4.5V, qui s’appuie sur la version Air. Chaque modèle offre une approche opérationnelle à double mode, avec un « mode de pensée » optimisé pour un raisonnement profond et complexe et un « mode de réponse rapide » adapté aux réponses rapides et concises.

Un point fort de la série GLM-4.5 est son efficacité remarquable en matière de paramètres, associée à de solides performances. Zhipu AI affirme que GLM-4.5V offre les capacités les plus puissantes parmi les modèles open source de taille comparable. Lors d’évaluations complètes sur douze benchmarks distincts, GLM-4.5 a obtenu une impressionnante troisième place au classement général parmi treize grands modèles linguistiques, et une notable deuxième place spécifiquement pour les tâches autonomes. Ses performances incluent un score de 70,1 % sur les tâches d’agent TAU-Bench, un taux de réussite de 91,0 % sur les problèmes de mathématiques AIME 24, et un solide 64,2 % sur les tâches d’ingénierie logicielle vérifiées par SWE-Bench.

Les modèles démontrent une efficacité exceptionnelle, le GLM-4.5 utilisant seulement la moitié des paramètres de Deepseek-R1 et seulement un tiers de Kimi K2, tout en égalant ou dépassant constamment leurs performances. Pour la navigation web, GLM-4.5 a atteint 26,4 % sur BrowseComp, surpassant même le bien plus grand Claude Opus 4, qui a obtenu 18,8 %. Même le modèle GLM-4.5-Air, plus compact, rivalise avec Deepseek R1 dans les tâches de codage, malgré son nombre de paramètres beaucoup plus faible.

Ces modèles sont basés sur une architecture sophistiquée de Mixture-of-Experts (MoE). Le GLM-4.5 dispose d’un total de 355 milliards de paramètres, dont 32 milliards sont activement engagés à tout moment, tandis que le GLM-4.5-Air présente 106 milliards de paramètres, dont 12 milliards sont actifs. Contrairement à certains contemporains qui privilégient les réseaux plus larges, Zhipu AI a opté pour des architectures plus profondes avec plus de couches, un choix de conception basé sur leurs recherches indiquant qu’une profondeur accrue améliore significativement les capacités de raisonnement. Les modèles ont subi un entraînement intensif sur environ 23 billions de tokens, progressant par étapes, des données générales aux tâches spécialisées de code et de raisonnement.

Tous les modèles sont accessibles via la plateforme Z.ai, offrant des points d’accès API compatibles avec OpenAI. Pour la communauté des développeurs, le code est open source sur GitHub, et les poids des modèles sont disponibles en téléchargement depuis Hugging Face et Modelscope d’Alibaba.

Zhipu AI, fondée en 2019 par des professeurs de l’Université de Tsinghua et dont le siège est à Pékin, a attiré pour la première fois l’attention internationale en 2022 lorsque son modèle GLM-130B a démontré des performances qui ont surpassé les offres de géants de l’industrie comme Google et OpenAI. Aujourd’hui, l’entreprise emploie plus de 800 personnes, principalement dans la recherche et le développement. Elle a attiré des investissements substantiels de grandes entreprises technologiques chinoises, notamment Alibaba, Tencent et Xiaomi, ainsi que de plusieurs fonds souverains et de bailleurs de fonds internationaux comme Prosperity7 Ventures de Saudi Aramco, culminant avec une valorisation dépassant les 5 milliards de dollars alors qu’elle se prépare à une introduction en bourse.

Cependant, l’ascension rapide des modèles d’IA chinois, y compris ceux de Zhipu AI, opère dans un cadre géopolitique unique. Tous ces modèles sont soumis à la censure gouvernementale, reflétant les priorités et les directives idéologiques de l’administration chinoise. Cela contraste avec les États-Unis, où le gouvernement explore également des restrictions sur les modèles d’IA nationaux, bien que motivé par un ensemble différent de valeurs politiques. Dans les deux cas, ces puissants systèmes d’IA risquent de devenir des outils dans des guerres culturelles plus larges, avec des idéologies distinctes façonnant leurs capacités et leurs productions autorisées, conduisant finalement à des formes similaires de contrôle de contenu.