GLM-4.5 de Zhipu AI: Razonamiento, Codificación y IA Agente Avanzados

Infoq

Zhipu AI ha presentado sus últimos avances en inteligencia artificial con el lanzamiento de GLM-4.5 y GLM-4.5-Air, dos nuevos modelos diseñados para sobresalir en un espectro de tareas exigentes que incluyen razonamiento complejo, codificación y operaciones de agente. Estos modelos introducen un sofisticado sistema de doble modo, que les permite cambiar dinámicamente entre un “pensamiento” analítico profundo para la resolución de problemas intrincados y respuestas rápidas de “no pensamiento” para consultas más sencillas, con el objetivo de optimizar tanto la precisión como la velocidad.

En su núcleo, GLM-4.5 cuenta con una arquitectura sustancial con 355 mil millones de parámetros totales y 32 mil millones de parámetros activos. Su contraparte más ligera, GLM-4.5-Air, opera con 106 mil millones de parámetros totales y 12 mil millones de parámetros activos. Ambos modelos aprovechan una arquitectura de Mezcla de Expertos (MoE), una elección de diseño cada vez más favorecida por su eficiencia y escalabilidad. A diferencia del enfoque “más amplio” visto en algunos modelos contemporáneos como DeepSeek-V3, GLM-4.5 enfatiza la profundidad, incorporando 96 cabezas de atención por capa. Para mejorar aún más su rendimiento, los modelos integran características avanzadas como QK-Norm, Atención de Consulta Agrupada (Grouped Query Attention), Predicción Multi-Token y el optimizador Muon, todo lo cual contribuye a una convergencia más rápida durante el entrenamiento y capacidades de razonamiento mejoradas.

El régimen de entrenamiento para estos nuevos modelos fue extenso, utilizando un corpus colosal de 22 billones de tokens. Una porción significativa de estos datos, 7 billones de tokens, se dedicó específicamente a tareas de código y razonamiento. Este entrenamiento fundamental se complementó luego con aprendizaje por refuerzo, impulsado por la infraestructura propietaria “slime RL” de Zhipu AI. Esta configuración especializada presenta una tubería de entrenamiento de RL de agente asíncrona, meticulosamente diseñada para maximizar el rendimiento y manejar eficazmente tareas de largo horizonte y múltiples pasos.

Los informes de rendimiento iniciales de Zhipu AI indican una fuerte posición competitiva. GLM-4.5 ha asegurado la 3ª posición general en un conjunto completo de 12 benchmarks, que evalúan colectivamente tareas de agente, razonamiento y competencia en codificación. Esto lo sitúa directamente detrás de los modelos de primer nivel de gigantes de la industria como OpenAI y Anthropic. GLM-4.5-Air también demuestra capacidades impresionantes, ocupando el 6º lugar y superando a numerosos modelos de escala comparable o incluso mayor.

Los modelos brillan particularmente en los benchmarks de codificación. GLM-4.5 logró un notable 64.2% en SWE-bench Verified y 37.5% en TerminalBench. Estas puntuaciones lo posicionan por delante de competidores notables como Claude 4 Opus, GPT-4.1 y Gemini 2.5 Pro en varias métricas clave. Su tasa de éxito en la llamada a herramientas subraya aún más su utilidad práctica, alcanzando el 90.6% y superando a Claude-4-Sonnet (89.5%) y Kimi K2 (86.2%).

Los primeros probadores han hecho eco de estas evaluaciones positivas, elogiando las robustas funcionalidades de codificación y agente de GLM-4.5. Los informes de usuarios de Reddit destacan el rendimiento “excelente” de GLM-4.5 en tareas de codificación, y GLM-4.5-Air se destaca por su efectividad en la investigación de agentes y benchmarks de resumen, incluso superando a modelos como Qwen 3 235B-a22b 2507 en comparaciones preliminares. Los usuarios también han elogiado la serie GLM por su velocidad e impresionante dominio del lenguaje, con una iteración anterior, GLM 4.1 Thinking Flash, obteniendo una alta puntuación en las pruebas de idioma francés.

Para desarrolladores y empresas, GLM-4.5 ofrece accesibilidad flexible. Se puede acceder directamente a través de Z.ai, invocar a través de la API de Z.ai, o integrar sin problemas en agentes de codificación existentes como Claude Code o Roo Code. Para aquellos que prefieren la implementación local, los pesos del modelo están fácilmente disponibles en plataformas populares como Hugging Face y ModelScope, con soporte para los frameworks de inferencia vLLM y SGLang.