GLM-4.5 de Zhipu AI : Raisonnement, Codage et IA Agente Avancés

Infoq

Zhipu AI a dévoilé ses dernières avancées en intelligence artificielle avec la sortie de GLM-4.5 et GLM-4.5-Air, deux nouveaux modèles conçus pour exceller dans un large éventail de tâches exigeantes, y compris le raisonnement complexe, le codage et les opérations d’agent. Ces modèles introduisent un système sophistiqué à double mode, leur permettant de basculer dynamiquement entre une “pensée” analytique profonde pour la résolution de problèmes complexes et des réponses rapides “non-pensantes” pour des requêtes plus simples, visant ainsi à optimiser à la fois la précision et la vitesse.

À la base, GLM-4.5 dispose d’une architecture substantielle avec 355 milliards de paramètres totaux et 32 milliards de paramètres actifs. Son homologue plus léger, GLM-4.5-Air, fonctionne avec 106 milliards de paramètres totaux et 12 milliards de paramètres actifs. Les deux modèles exploitent une architecture de Mixture-of-Experts (MoE), un choix de conception de plus en plus privilégié pour son efficacité et son évolutivité. S’écartant de l’approche “plus large” observée dans certains modèles contemporains comme DeepSeek-V3, GLM-4.5 met l’accent sur la profondeur, intégrant 96 têtes d’attention par couche. Améliorant encore leurs performances, les modèles intègrent des fonctionnalités avancées telles que QK-Norm, Grouped Query Attention, Multi-Token Prediction et l’optimiseur Muon, toutes contribuant à une convergence plus rapide pendant l’entraînement et à des capacités de raisonnement améliorées.

Le régime d’entraînement de ces nouveaux modèles a été étendu, utilisant un corpus colossal de 22 billions de tokens. Une partie significative de ces données, 7 billions de tokens, a été spécifiquement dédiée aux tâches de code et de raisonnement. Cette formation fondamentale a ensuite été augmentée par l’apprentissage par renforcement, alimenté par l’infrastructure propriétaire “slime RL” de Zhipu AI. Cette configuration spécialisée présente un pipeline d’entraînement RL d’agent asynchrone, méticuleusement conçu pour maximiser le débit et gérer efficacement les tâches à long terme et multi-étapes.

Les premiers rapports de performance de Zhipu AI indiquent une forte position concurrentielle. GLM-4.5 a obtenu la 3ème position générale sur une suite complète de 12 benchmarks, qui évaluent collectivement les tâches d’agent, le raisonnement et les compétences en codage. Cela le place directement derrière les modèles de premier plan de géants de l’industrie comme OpenAI et Anthropic. GLM-4.5-Air démontre également des capacités impressionnantes, se classant 6ème et surpassant de nombreux modèles de taille comparable ou même supérieure.

Les modèles brillent particulièrement dans les benchmarks de codage. GLM-4.5 a atteint un remarquable 64,2% sur SWE-bench Verified et 37,5% sur TerminalBench. Ces scores le positionnent devant des concurrents notables tels que Claude 4 Opus, GPT-4.1 et Gemini 2.5 Pro sur plusieurs métriques clés. Son taux de réussite d’appel d’outils souligne davantage son utilité pratique, atteignant 90,6% et dépassant Claude-4-Sonnet (89,5%) et Kimi K2 (86,2%).

Les premiers testeurs ont fait écho à ces évaluations positives, louant les robustes fonctionnalités de codage et d’agent de GLM-4.5. Les rapports des utilisateurs de Reddit soulignent les performances “excellentes” de GLM-4.5 dans les tâches de codage, GLM-4.5-Air étant noté pour son efficacité dans la recherche d’agents et les benchmarks de résumé, surpassant même des modèles comme Qwen 3 235B-a22b 2507 dans les comparaisons préliminaires. Les utilisateurs ont également salué la série GLM pour sa vitesse et ses impressionnantes compétences linguistiques, une itération antérieure, GLM 4.1 Thinking Flash, ayant obtenu un score élevé lors des tests de langue française.

Pour les développeurs et les entreprises, GLM-4.5 offre une accessibilité flexible. Il peut être directement accédé via Z.ai, invoqué via l’API Z.ai, ou intégré de manière transparente dans des agents de codage existants tels que Claude Code ou Roo Code. Pour ceux qui préfèrent un déploiement local, les poids du modèle sont facilement disponibles sur des plateformes populaires comme Hugging Face et ModelScope, avec prise en charge des frameworks d’inférence vLLM et SGLang.