智谱AI GLM-4.5：高级推理、编程与智能体AI新突破

智谱AI近日发布了其在人工智能领域的最新进展——GLM-4.5和GLM-4.5-Air两款全新模型。这些模型旨在复杂推理、编程和智能体操作等一系列高要求任务中表现出色。它们引入了精密的双模态系统，使其能够动态地在用于复杂问题解决的深度分析“思考”模式和用于更直接查询的快速“非思考”响应模式之间切换，从而旨在同时优化准确性和速度。

GLM-4.5的核心是一个庞大的架构，总参数量达3550亿，激活参数量为320亿。其轻量级版本GLM-4.5-Air的总参数量为1060亿，激活参数量为120亿。两款模型均采用专家混合（MoE）架构，这是一种因其效率和可扩展性而日益受到青睐的设计选择。与DeepSeek-V3等一些当代模型所采用的“更宽”方法不同，GLM-4.5强调深度，每层包含96个注意力头。为了进一步提升其性能，模型集成了QK-Norm、分组查询注意力（Grouped Query Attention）、多令牌预测（Multi-Token Prediction）和Muon优化器等先进功能，所有这些都有助于在训练过程中实现更快的收敛并提高推理能力。

这些新模型的训练过程非常广泛，使用了高达22万亿令牌的庞大语料库。其中有7万亿令牌的数据专门用于代码和推理任务。这种基础训练随后通过强化学习得到增强，由智谱AI专有的“slime RL”基础设施提供支持。这种专业设置具有异步智能体强化学习训练管道，经过精心设计，旨在最大限度地提高吞吐量并有效处理长周期、多步骤任务。

智谱AI的初步性能报告显示出强大的竞争地位。GLM-4.5在涵盖智能体任务、推理和编程熟练度的12项基准测试综合套件中取得了总排名第3的成绩。这使其直接位列OpenAI和Anthropic等行业巨头顶级模型之后。GLM-4.5-Air也展示了令人印象深刻的能力，排名第6，超越了许多规模相当甚至更大的模型。

这些模型在编程基准测试中表现尤为出色。GLM-4.5在SWE-bench Verified上取得了64.2%的显著成绩，在TerminalBench上取得了37.5%的成绩。这些分数使其在多项关键指标上领先于Claude 4 Opus、GPT-4.1和Gemini 2.5 Pro等知名竞争对手。其工具调用成功率进一步凸显了其实用价值，达到了90.6%，超越了Claude-4-Sonnet（89.5%）和Kimi K2（86.2%）。

早期测试者也对这些积极评价表示赞同，称赞GLM-4.5强大的编程和智能体功能。Reddit用户的报告强调GLM-4.5在编程任务中表现“出色”，而GLM-4.5-Air则因其在智能体研究和摘要基准测试中的有效性而受到关注，在初步比较中甚至超越了Qwen 3 235B-a22b 2507等模型。用户还称赞GLM系列的速度和令人印象深刻的语言能力，早期版本GLM 4.1 Thinking Flash在法语测试中得分很高。

对于开发者和企业而言，GLM-4.5提供了灵活的访问方式。它可以通过Z.ai直接访问，通过Z.ai API调用，或无缝集成到现有的编程智能体中，如Claude Code或Roo Code。对于偏好本地部署的用户，模型权重可轻松在Hugging Face和ModelScope等流行平台上获取，并支持vLLM和SGLang推理框架。

智谱AI GLM-4.5：高级推理、编程与智能体AI新突破

相关文章

Ai2 推出 MolmoAct：赋能机器人 3D 空间推理的透明开源 AI

Genie Envisioner：可扩展机器人技术的统一视频生成AI

OpenAI GPT-5：医疗AI基准与安全焦点