智谱AI GLM-4.5:开源大模型媲美西方顶尖水平

Decoder

中国人工智能巨头智谱AI发布了其最新进展——GLM-4.5和GLM-4.5V模型系列,这标志着其在旨在处理复杂逻辑推理、高级编程和自主智能体任务的开源大语言模型领域迈出了重要一步。这些新模型旨在应对一系列实际应用,从生成交互式迷你游戏和复杂的物理模拟,到自主制作集成网络搜索功能的演示文稿,乃至开发包含前后端功能的完整网络应用程序。

多模态版本GLM-4.5V通过整合先进的图像和视频分析,进一步扩展了这些能力。此版本能够从简单的屏幕截图重建整个网站并执行屏幕操作,从而实现高度自主的智能体行为。用户只需简单登录chat.z.ai,即可通过类ChatGPT界面免费体验这些功能。

智谱AI的新产品线包括三款不同的模型:强大的GLM-4.5、更具资源效率的GLM-4.5-Air以及基于Air版本的多模态GLM-4.5V。每款模型都提供双模式操作方法,包括优化深度复杂推理的“思考模式”和旨在快速简洁回答的“快速响应模式”。

GLM-4.5系列的一个主要亮点是其卓越的参数效率与强大性能相结合。智谱AI声称,GLM-4.5V在同等规模的开源模型中提供最强大的能力。在十二项不同基准测试的全面评估中,GLM-4.5在十三款大语言模型中总体排名第三,在自主任务方面更是位居第二。其性能包括在TAU-Bench智能体任务中取得70.1%的得分,在AIME 24数学问题上达到91.0%的成功率,以及在SWE-Bench Verified软件工程任务中获得64.2%的扎实表现。

这些模型展现出非凡的效率,GLM-4.5仅使用Deepseek-R1一半的参数和Kimi K2三分之一的参数,却能持续匹配甚至超越它们的性能。在网络导航方面,GLM-4.5在BrowseComp上达到了26.4%,甚至超越了参数规模大得多的Claude Opus 4(18.8%)。即使是更紧凑的GLM-4.5-Air模型,尽管参数量远小于Deepseek R1,但在编码任务上也能与其匹敌。

支撑这些模型的是复杂的专家混合(MoE)架构。GLM-4.5总计拥有3550亿参数,其中320亿在任何给定时间处于活跃状态;而GLM-4.5-Air则有1060亿参数,其中120亿活跃。与一些偏爱更宽网络的同行不同,智谱AI选择了层数更多的深层架构,这一设计选择基于他们的研究,表明增加深度能显著提升推理能力。这些模型经过约23万亿个token的广泛训练,从通用数据到专门的代码和推理任务,分多个阶段进行。

所有模型均可通过Z.ai平台访问,该平台提供与OpenAI兼容的API接口。对于开发者社区,代码在GitHub上开源,模型权重可从Hugging Face和阿里云的Modelscope下载。

智谱AI由清华大学教授于2019年创立,总部位于北京,于2022年首次获得国际关注,当时其GLM-130B模型表现超越了谷歌和OpenAI等行业巨头的同类产品。目前,该公司现有员工800余人,主要从事研发工作。它吸引了包括阿里巴巴、腾讯和小米在内的中国知名科技公司,以及多家主权财富基金和沙特阿美旗下Prosperity7 Ventures等国际投资者的巨额投资,目前估值已超过50亿美元,并正准备进行首次公开募股。

然而,包括智谱AI在内的中国AI模型的迅速崛起,是在独特的全球地缘政治框架下运作的。所有此类模型都受到政府审查,这反映了中国政府的优先事项和意识形态指令。这与美国形成对比,尽管美国政府也在探索对国内AI模型的限制,但其驱动因素是一套不同的政治价值观。在这两种情况下,这些强大的AI系统都有可能成为更广泛文化战争的工具,不同的意识形态塑造着它们的能力和允许的输出,最终导致类似形式的内容控制。