智譜AIのGLM-4.5:高度な推論、コーディング、エージェントAIの新境地

Infoq

智譜AIは、複雑な推論、コーディング、エージェント操作を含む幅広い要求の厳しいタスクで卓越した性能を発揮するように設計された2つの新しいモデル、GLM-4.5およびGLM-4.5-Airを発表し、人工知能における最新の進歩を明らかにしました。これらのモデルは、洗練されたデュアルモードシステムを導入しており、複雑な問題解決のための深い分析的「思考」と、より簡単なクエリに対する迅速な「非思考」応答の間で動的に切り替えることができ、それによって精度と速度の両方を最適化することを目指しています。

GLM-4.5の核となるのは、合計3550億のパラメータと320億のアクティブパラメータを持つ強固なアーキテクチャです。その軽量版であるGLM-4.5-Airは、合計1060億、アクティブ120億のパラメータで動作します。両モデルは、その効率性とスケーラビリティからますます好まれているデザイン選択である、Mixture-of-Experts(MoE)アーキテクチャを活用しています。DeepSeek-V3のような現代のモデルに見られる「より広い」アプローチとは異なり、GLM-4.5は深さを重視し、レイヤーあたり96個のアテンションヘッドを組み込んでいます。さらにパフォーマンスを向上させるため、モデルはQK-Norm、Grouped Query Attention、Multi-Token Prediction、Muonオプティマイザなどの高度な機能を統合しており、これらすべてがトレーニング中の高速な収束と推論能力の向上に貢献しています。

これらの新しいモデルのトレーニングレジメンは広範で、22兆トークンという膨大なコーパスが使用されました。このデータのうち7兆トークンというかなりの部分が、特にコードおよび推論タスクに特化して使用されました。この基礎トレーニングは、智譜AI独自の「slime RL」インフラストラクチャによって強化された強化学習によって補完されました。この専門的なセットアップは、非同期エージェントRLトレーニングパイプラインを特徴とし、スループットを最大化し、長期にわたる多段階タスクを効果的に処理するように綿密に設計されています。

智譜AIからの初期の性能報告は、強力な競争力を示しています。GLM-4.5は、エージェントタスク、推論、コーディング能力を総合的に評価する12のベンチマークの包括的なスイートで総合3位を獲得しました。これにより、OpenAIやAnthropicのような業界大手のトップティアモデルのすぐ後ろに位置しています。GLM-4.5-Airも印象的な能力を示しており、6位にランクインし、同等またはそれ以上の規模の多くのモデルを上回っています。

これらのモデルは、特にコーディングベンチマークで際立っています。GLM-4.5はSWE-bench Verifiedで注目すべき64.2%、TerminalBenchで37.5%を達成しました。これらのスコアは、Claude 4 Opus、GPT-4.1、Gemini 2.5 Proなどの著名な競合他社をいくつかの主要な指標で上回っています。そのツール呼び出し成功率は、90.6%に達し、Claude-4-Sonnet(89.5%)やKimi K2(86.2%)を上回ることで、その実用性をさらに強調しています。

初期テスターもこれらの肯定的な評価に同調し、GLM-4.5の堅牢なコーディングおよびエージェント機能を高く評価しています。Redditユーザーからの報告では、GLM-4.5のコーディングタスクにおける「優れた」パフォーマンスが強調されており、GLM-4.5-Airはエージェント研究および要約ベンチマークにおける有効性で注目され、予備的な比較ではQwen 3 235B-a22b 2507のようなモデルさえも上回っています。ユーザーはまた、GLMシリーズの速度と印象的な言語能力を称賛しており、以前のイテレーションであるGLM 4.1 Thinking Flashはフランス語テストで高得点を記録しています。

開発者および企業にとって、GLM-4.5は柔軟なアクセス性を提供します。Z.aiを介して直接アクセスしたり、Z.ai APIを通じて呼び出したり、Claude CodeやRoo Codeなどの既存のコーディングエージェントにシームレスに統合したりできます。ローカル展開を希望するユーザー向けには、Hugging FaceやModelScopeなどの人気プラットフォームでモデルウェイトが容易に入手でき、vLLMおよびSGLang推論フレームワークがサポートされています。