アリババのGSPO：LLM向け安定RL、Qwen3モデルを強化

強化学習（RL）は、大規模言語モデル（LLM）をスケールアップするための重要な技術として登場し、より深い推論を通じて、競技レベルの数学や複雑なプログラミングタスクなどの非常に複雑な課題に取り組むことを可能にしました。しかし、大きな障害が依然として存在します。それは、増え続ける計算リソースでRLをスケールアップする際に、安定した信頼性の高いトレーニングダイナミクスを達成することです。現在の最先端アルゴリズム、特にGRPOは、巨大な言語モデルのトレーニング中に深刻な安定性の問題に頻繁に遭遇し、壊滅的な失敗につながることがよくあります。これらの不安定性は、重要度サンプリング重みの不適切な適用に起因し、高分散ノイズを導入します。このノイズは、モデルの応答が長くなるにつれて強まり、クリッピングメカニズムによってさらに悪化し、最終的にモデルの崩壊を引き起こし、進歩を妨げます。

PPOやGRPOのような既存の方法は、クリッピングなどのメカニズムを通じて、オフポリシー学習（モデルが古いポリシーによって生成されたデータから学習する）の課題に対処しようとします。しかし、これらのアプローチは、特に長応答タスクを扱う大規模モデルに適用された場合、その不適切な目的によって制限されます。例えば、GRPOのトークンレベルの重要度サンプリングへの依存は、高分散ノイズを生成し、不可逆的なモデルの崩壊を引き起こす可能性があります。綿密なハイパーパラメータチューニングやチェックポイントの復元によって、そのような崩壊から回復しようとする試みは、しばしば無駄に終わり、その設計における根本的な欠陥を浮き彫りにしています。トークンレベルの修正とシーケンスレベルの報酬との間の固有の不一致は、安定性とスケーラビリティの両方を確保するために、シーケンスレベルで直接最適化する新しいアプローチが喫緊に必要であることを示しています。

これらの課題に対応して、アリババの研究者たちは、LLMのトレーニングのために特別に設計された革新的なRLアルゴリズムであるグループシーケンスポリシー最適化（GSPO）を導入しました。GSPOの主要なブレークスルーは、その理論に基づいた重要度比にあります。これは、シーケンス全体の尤度から導き出され、重要度サンプリングの原則とより密接に一致しています。さらに、単一のクエリに対する複数の応答にわたる正規化された報酬を利点として計算し、シーケンスレベルの報酬と全体的な最適化目標との一貫性を促進します。経験的評価では、GSPOが安定性、効率、および全体的なパフォーマンスの点でGRPOを大幅に上回ることが一貫して示されています。大規模なエキスパート混合（MoE）モデルのトレーニングで頻繁に遭遇する安定性の問題を効果的に解決することで、GSPOは複雑でしばしば煩雑な安定化技術の必要性を排除します。

研究者たちは、Qwen3-30B-A3B-Baseからファインチューニングされたコールドスタートモデルを使用して実験を行い、AIME’24、LiveCodeBench、CodeForcesなどの要求の厳しいベンチマーク全体でトレーニング報酬曲線とモデルパフォーマンスを綿密に追跡しました。トレーニング中、各バッチのロールアウトデータは、勾配更新のために体系的に4つのミニバッチに分割されました。GSPOの重要な特徴は、そのクリッピングアプローチです。個々のトークンではなく、応答全体をクリッピングし、クリッピング範囲は通常、その定式化で3e-4と4e-4に設定されます。これにより、GRPOと比較して、クリッピングされたトークン分数に2桁の違いが生じます。驚くべきことに、勾配推定のためにトークンのより大きな割合を削除しているにもかかわらず、GSPOは優れたトレーニング効率を達成します。この結果は、GRPOのノイズの多いトークンレベルの推定値の固有の非効率性を強力に強調しています。

GSPOは、特にMoEモデルのトレーニングにおいて、勾配更新全体で一貫したエキスパート活性化を通じてプロセスを安定させることで、大きな利点をもたらします。これは、エキスパート活性化の変動性によく悩まされるGRPOとは対照的です。この革新は、ルーティングリプレイのような複雑なソリューションの必要性を否定し、基盤となるインフラストラクチャを簡素化し、モデルがその固有の能力を最大限に活用できるようにします。より広範なRLインフラストラクチャ内では、GSPOのシーケンスレベル最適化は、正確なトークンレベルの尤度への依存を大幅に減らし、潜在的な精度不一致に対してより堅牢になります。この堅牢性により、推論エンジンの尤度を直接使用でき、高価な再計算を回避し、部分的なロールアウトや複数ターンの強化学習を含むシナリオでの効率が大幅に向上します。最終的に、GSPOは大規模言語モデルトレーニングのためのRLインフラストラクチャ全体を合理化します。

結論として、グループシーケンスポリシー最適化（GSPO）は、LLMをトレーニングするための強化学習における極めて重要な進歩を意味します。重要度サンプリングのコア原則に基づいて構築し、新しいシーケンスレベルのクリッピング、報酬、最適化戦略を導入することで、GSPOはGRPOのような以前のアルゴリズムを悩ませてきた不安定性と非効率性を効果的に克服します。トレーニングの安定性、効率、スケーラビリティ、特に複雑なMoEモデルにおいて実証された優れたパフォーマンスは、堅牢なアルゴリズム基盤としての地位を確立しています。GSPOによって促進されたブレークスルーは、Qwen3モデルの注目すべきパフォーマンス能力において重要な役割を果たしており、研究者たちはGSPOを基礎的なアプローチとして構築することが、人工知能における画期的な進歩への道を開くと予測しています。

アリババのGSPO：LLM向け安定RL、Qwen3モデルを強化

関連記事

MetaのVRプロトタイプ「ティラミス」が人間に迫る視覚、その巨体にもかかわらず

Google Geminiに隠れたプロンプト注入の脆弱性：カレンダー招待でAI乗っ取り

ChatGPT、「毒入り」文書でデータ漏洩の恐れ