Alibabas GSPO: Stabile RL für LLMs, treibt Qwen3-Modelle an
Reinforcement Learning (RL) hat sich als entscheidende Technologie für die Skalierung großer Sprachmodelle (LLMs) etabliert, die es ihnen ermöglicht, hochkomplexe Herausforderungen wie Mathematik auf Wettbewerbsniveau und komplizierte Programmieraufgaben durch tieferes Denken zu bewältigen. Ein erhebliches Hindernis bleibt jedoch bestehen: die Erzielung stabiler und zuverlässiger Trainingsdynamiken bei der Skalierung von RL mit immer größeren Rechenressourcen. Aktuelle State-of-the-Art-Algorithmen, insbesondere GRPO, stoßen beim Training kolossaler Sprachmodelle häufig auf schwerwiegende Stabilitätsprobleme, die oft zu katastrophalen Ausfällen führen. Diese Instabilitäten resultieren aus der unsachgemäßen Anwendung von Importance-Sampling-Gewichten, die hochvariablen Rauschen einführen. Dieses Rauschen verstärkt sich mit längeren Modellantworten und wird durch Clipping-Mechanismen verschlimmert, was letztendlich zum Modellkollaps führt und den Fortschritt behindert.
Bestehende Methoden wie PPO und GRPO versuchen, die Herausforderungen des Off-Policy-Lernens – bei dem Modelle aus Daten lernen, die von veralteten Policies generiert wurden – durch Mechanismen wie Clipping zu bewältigen. Doch diese Ansätze sind durch ihre schlecht gestellten Ziele begrenzt, insbesondere wenn sie auf massive Modelle angewendet werden, die lange Antwortaufgaben bearbeiten. GRPOs Abhängigkeit von Token-Level-Importance-Sampling beispielsweise erzeugt hochvariablen Rauschen, der einen irreversiblen Modellkollaps auslösen kann. Versuche, sich von solchen Kollapsen zu erholen, sei es durch sorgfältige Hyperparameter-Abstimmung oder Checkpoint-Wiederherstellung, erweisen sich oft als vergeblich, was einen grundlegenden Fehler in ihrem Design unterstreicht. Die inhärente Diskrepanz zwischen Token-Level-Korrekturen und Sequenz-Level-Belohnungen verdeutlicht die dringende Notwendigkeit eines neuen Ansatzes, der direkt auf Sequenz-Ebene optimiert, um sowohl Stabilität als auch Skalierbarkeit zu gewährleisten.
Als Reaktion auf diese Herausforderungen haben Forscher bei Alibaba Inc. die Group Sequence Policy Optimization (GSPO) eingeführt, einen innovativen RL-Algorithmus, der speziell für das Training von LLMs entwickelt wurde. Der primäre Durchbruch von GSPO liegt in seinem theoretisch fundierten Importance Ratio, das aus der Wahrscheinlichkeit ganzer Sequenzen abgeleitet wird und sich enger an die Prinzipien des Importance Samplings anlehnt. Darüber hinaus berechnet es normalisierte Belohnungen als Vorteile über mehrere Antworten auf eine einzelne Abfrage hinweg, was die Konsistenz zwischen Sequenz-Level-Belohnungen und den gesamten Optimierungszielen fördert. Empirische Evaluierungen haben durchweg gezeigt, dass GSPO GRPO in Bezug auf Stabilität, Effizienz und Gesamtleistung signifikant übertrifft. Durch die effektive Lösung der Stabilitätsprobleme, die beim Training großer Mixture-of-Experts (MoE)-Modelle häufig auftreten, eliminiert GSPO die Notwendigkeit komplexer, oft umständlicher Stabilisierungstechniken.
Die Forscher führten ihre Experimente unter Verwendung eines Kaltstartmodells durch, das von Qwen3-30B-A3B-Base feingetunt wurde, und verfolgten akribisch die Trainingsbelohnungskurven und die Modellleistung über anspruchsvolle Benchmarks wie AIME’24, LiveCodeBench und CodeForces. Während des Trainings wurden die Rollout-Daten in jedem Batch systematisch in vier Mini-Batches für Gradienten-Updates aufgeteilt. Ein entscheidender Unterschied von GSPO ist sein Clipping-Ansatz: Es clippt ganze Antworten anstatt einzelner Tokens, wobei die Clipping-Bereiche in seiner Formulierung typischerweise auf 3e-4 und 4e-4 eingestellt sind. Dies führt zu einem Unterschied von zwei Größenordnungen bei den geclippten Token-Fraktionen im Vergleich zu GRPO. Bemerkenswerterweise erzielt GSPO trotz des Entfernens eines größeren Anteils von Tokens für die Gradientenschätzung eine überlegene Trainingseffizienz. Dieses Ergebnis unterstreicht eindringlich die inhärente Ineffizienz der verrauschten Token-Level-Schätzungen von GRPO.
GSPO bietet erhebliche Vorteile, insbesondere für das MoE-Modelltraining, indem es den Prozess durch konsistente Expertenaktivierungen über Gradienten-Updates hinweg stabilisiert – ein starker Kontrast zu GRPO, das oft mit der Volatilität der Expertenaktivierung zu kämpfen hat. Diese Innovation negiert die Notwendigkeit komplizierter Lösungen wie Routing Replay, vereinfacht die zugrunde liegende Infrastruktur und ermöglicht es Modellen, ihre inhärente Kapazität voll auszuschöpfen. Innerhalb der breiteren RL-Infrastruktur reduziert GSPOs Sequenz-Level-Optimierung seine Abhängigkeit von präzisen Token-Level-Wahrscheinlichkeiten erheblich, wodurch es robuster gegenüber potenziellen Präzisionsdiskrepanzen wird. Diese Robustheit ermöglicht die direkte Verwendung von Inferenz-Engine-Wahrscheinlichkeiten, wodurch kostspielige Neuberechnungen umgangen und die Effizienz in Szenarien mit partiellen Rollouts und mehrstufigem Reinforcement Learning erheblich verbessert werden. Letztendlich optimiert GSPO die gesamte RL-Infrastruktur für das Training großer Sprachmodelle.
Zusammenfassend stellt die Group Sequence Policy Optimization (GSPO) einen entscheidenden Fortschritt im Reinforcement Learning für das Training von LLMs dar. Durch den Aufbau auf Kernprinzipien des Importance Samplings und die Einführung neuartiger Sequenz-Level-Clipping-, Belohnungs- und Optimierungsstrategien überwindet GSPO effektiv die Instabilität und Ineffizienz, die frühere Algorithmen wie GRPO geplagt haben. Ihre nachgewiesene überlegene Leistung in Bezug auf Trainingsstabilität, Effizienz und Skalierbarkeit, insbesondere für komplexe MoE-Modelle, etabliert sie fest als robuste algorithmische Grundlage. Die durch GSPO ermöglichten Durchbrüche haben eine entscheidende Rolle bei den bemerkenswerten Leistungsfähigkeiten der Qwen3-Modelle gespielt, und Forscher erwarten, dass der Aufbau auf GSPO als fundamentalem Ansatz den Weg für bahnbrechende Fortschritte in der künstlichen Intelligenz ebnen wird.