智谱AI GLM-4.5:高级推理、编程与智能体AI新突破

Infoq

智谱AI近日发布了其在人工智能领域的最新进展——GLM-4.5和GLM-4.5-Air两款全新模型。这些模型旨在复杂推理、编程和智能体操作等一系列高要求任务中表现出色。它们引入了精密的双模态系统,使其能够动态地在用于复杂问题解决的深度分析“思考”模式和用于更直接查询的快速“非思考”响应模式之间切换,从而旨在同时优化准确性和速度。

GLM-4.5的核心是一个庞大的架构,总参数量达3550亿,激活参数量为320亿。其轻量级版本GLM-4.5-Air的总参数量为1060亿,激活参数量为120亿。两款模型均采用专家混合(MoE)架构,这是一种因其效率和可扩展性而日益受到青睐的设计选择。与DeepSeek-V3等一些当代模型所采用的“更宽”方法不同,GLM-4.5强调深度,每层包含96个注意力头。为了进一步提升其性能,模型集成了QK-Norm、分组查询注意力(Grouped Query Attention)、多令牌预测(Multi-Token Prediction)和Muon优化器等先进功能,所有这些都有助于在训练过程中实现更快的收敛并提高推理能力。

这些新模型的训练过程非常广泛,使用了高达22万亿令牌的庞大语料库。其中有7万亿令牌的数据专门用于代码和推理任务。这种基础训练随后通过强化学习得到增强,由智谱AI专有的“slime RL”基础设施提供支持。这种专业设置具有异步智能体强化学习训练管道,经过精心设计,旨在最大限度地提高吞吐量并有效处理长周期、多步骤任务。

智谱AI的初步性能报告显示出强大的竞争地位。GLM-4.5在涵盖智能体任务、推理和编程熟练度的12项基准测试综合套件中取得了总排名第3的成绩。这使其直接位列OpenAI和Anthropic等行业巨头顶级模型之后。GLM-4.5-Air也展示了令人印象深刻的能力,排名第6,超越了许多规模相当甚至更大的模型。

这些模型在编程基准测试中表现尤为出色。GLM-4.5在SWE-bench Verified上取得了64.2%的显著成绩,在TerminalBench上取得了37.5%的成绩。这些分数使其在多项关键指标上领先于Claude 4 Opus、GPT-4.1和Gemini 2.5 Pro等知名竞争对手。其工具调用成功率进一步凸显了其实用价值,达到了90.6%,超越了Claude-4-Sonnet(89.5%)和Kimi K2(86.2%)。

早期测试者也对这些积极评价表示赞同,称赞GLM-4.5强大的编程和智能体功能。Reddit用户的报告强调GLM-4.5在编程任务中表现“出色”,而GLM-4.5-Air则因其在智能体研究和摘要基准测试中的有效性而受到关注,在初步比较中甚至超越了Qwen 3 235B-a22b 2507等模型。用户还称赞GLM系列的速度和令人印象深刻的语言能力,早期版本GLM 4.1 Thinking Flash在法语测试中得分很高。

对于开发者和企业而言,GLM-4.5提供了灵活的访问方式。它可以通过Z.ai直接访问,通过Z.ai API调用,或无缝集成到现有的编程智能体中,如Claude Code或Roo Code。对于偏好本地部署的用户,模型权重可轻松在Hugging Face和ModelScope等流行平台上获取,并支持vLLM和SGLang推理框架。