Zhipu AIs GLM-4.5: KI für Schlussfolgerung, Codierung und Agenten
Zhipu AI hat seine neuesten Fortschritte im Bereich der künstlichen Intelligenz mit der Veröffentlichung von GLM-4.5 und GLM-4.5-Air vorgestellt. Diese beiden neuen Modelle wurden entwickelt, um in einer Reihe anspruchsvoller Aufgaben, darunter komplexe Schlussfolgerungen, Codierung und Agentenoperationen, hervorragende Leistungen zu erbringen. Sie führen ein ausgeklügeltes Dual-Modus-System ein, das es ihnen ermöglicht, dynamisch zwischen tiefgreifendem analytischem „Denken“ für komplexe Problemlösungen und schnellen „Nicht-Denken“-Antworten für einfachere Anfragen zu wechseln, wodurch sowohl Genauigkeit als auch Geschwindigkeit optimiert werden sollen.
Im Kern verfügt GLM-4.5 über eine substanzielle Architektur mit insgesamt 355 Milliarden Parametern und 32 Milliarden aktiven Parametern. Sein leichteres Gegenstück, GLM-4.5-Air, arbeitet mit 106 Milliarden Gesamt- und 12 Milliarden aktiven Parametern. Beide Modelle nutzen eine Mixture-of-Experts (MoE)-Architektur, eine Designwahl, die aufgrund ihrer Effizienz und Skalierbarkeit zunehmend bevorzugt wird. Im Gegensatz zum „breiteren“ Ansatz, der bei einigen zeitgenössischen Modellen wie DeepSeek-V3 zu beobachten ist, betont GLM-4.5 die Tiefe und integriert 96 Aufmerksamkeitsköpfe pro Schicht. Zur weiteren Leistungssteigerung integrieren die Modelle fortschrittliche Funktionen wie QK-Norm, Grouped Query Attention, Multi-Token Prediction und den Muon-Optimierer, die alle zu einer schnelleren Konvergenz während des Trainings und verbesserten Schlussfolgerungsfähigkeiten beitragen.
Das Trainingsregime für diese neuen Modelle war umfangreich und nutzte einen kolossalen Korpus von 22 Billionen Tokens. Ein signifikanter Teil dieser Daten, 7 Billionen Tokens, wurde speziell für Code- und Schlussfolgerungsaufgaben verwendet. Dieses grundlegende Training wurde dann durch Reinforcement Learning ergänzt, das durch die proprietäre „slime RL“-Infrastruktur von Zhipu AI angetrieben wird. Dieses spezialisierte Setup verfügt über eine asynchrone agentische RL-Trainingspipeline, die sorgfältig entwickelt wurde, um den Durchsatz zu maximieren und langwierige, mehrstufige Aufgaben effektiv zu bewältigen.
Erste Leistungsberichte von Zhipu AI deuten auf eine starke Wettbewerbsposition hin. GLM-4.5 hat den 3. Gesamtplatz in einer umfassenden Suite von 12 Benchmarks belegt, die gemeinsam Agentenaufgaben, Schlussfolgerungen und Programmierkenntnisse bewerten. Dies platziert es direkt hinter den Top-Modellen von Branchenriesen wie OpenAI und Anthropic. GLM-4.5-Air zeigt ebenfalls beeindruckende Fähigkeiten, belegt den 6. Platz und übertrifft zahlreiche Modelle vergleichbarer oder sogar größerer Skala.
Die Modelle glänzen besonders in Codierungs-Benchmarks. GLM-4.5 erreichte bemerkenswerte 64,2 % bei SWE-bench Verified und 37,5 % bei TerminalBench. Diese Ergebnisse positionieren es in mehreren Schlüsselmetriken vor namhaften Konkurrenten wie Claude 4 Opus, GPT-4.1 und Gemini 2.5 Pro. Seine Erfolgsrate bei Tool-Aufrufen unterstreicht zusätzlich seinen praktischen Nutzen und erreicht 90,6 %, womit es Claude-4-Sonnet (89,5 %) und Kimi K2 (86,2 %) übertrifft.
Frühe Tester haben diese positiven Einschätzungen bestätigt und die robusten Codierungs- und Agentenfunktionen von GLM-4.5 gelobt. Berichte von Reddit-Benutzern heben die „ausgezeichnete“ Leistung von GLM-4.5 bei Codierungsaufgaben hervor, wobei GLM-4.5-Air für seine Effektivität bei Agenten-Forschung und Zusammenfassungs-Benchmarks bekannt ist und in vorläufigen Vergleichen sogar Modelle wie Qwen 3 235B-a22b 2507 übertrifft. Benutzer lobten die GLM-Serie auch für ihre Geschwindigkeit und beeindruckende Sprachkenntnisse, wobei eine frühere Iteration, GLM 4.1 Thinking Flash, bei französischen Sprachtests hohe Punktzahlen erzielte.
Für Entwickler und Unternehmen bietet GLM-4.5 flexible Zugänglichkeit. Es kann direkt über Z.ai aufgerufen, über die Z.ai-API verwendet oder nahtlos in bestehende Codierungsagenten wie Claude Code oder Roo Code integriert werden. Für diejenigen, die eine lokale Bereitstellung bevorzugen, sind die Modellgewichte auf beliebten Plattformen wie Hugging Face und ModelScope leicht verfügbar, mit Unterstützung für die Inferenz-Frameworks vLLM und SGLang.