NVIDIA ProRLv2:RLの延長がLLMの推論能力と性能を劇的に向上

Marktechpost

NVIDIAの最新のイノベーションであるProRLv2(Prolonged Reinforcement Learning v2)は、大規模言語モデル(LLM)の推論能力を向上させる上で重要な一歩となります。この新しいアプローチは、強化学習(RL)のステップ数を2,000から前例のない3,000に大幅に延長することで、LLMが新しい解決策の空間を解き放ち、より大きな創造性を育み、これまで達成不可能と考えられていた高レベルの推論を達成できることを示し、従来の常識に挑戦しています。驚くべきことに、これらの進歩は、15億パラメータを持つNemotron-Research-Reasoning-Qwen-1.5B-v2のようなよりコンパクトなモデルでも明らかです。

これらのブレークスルーを達成するために、ProRLv2は、LLMトレーニングにRLを適用する際に頻繁に遭遇する固有の不安定性や制限を軽減するように設計されたいくつかの重要なイノベーションを統合しています。核となるコンポーネントはREINFORCE+±Baselineです。これは、長期間の最適化のために設計された堅牢なRLアルゴリズムであり、数千ステップにわたる安定した学習を可能にします。さらなる安定性と探索は、KLダイバージェンス正則化と参照ポリシーリセットメカニズムの組み合わせによって保証されます。このシステムは、現在の最高のパフォーマンスを持つチェックポイントで参照モデルを定期的に更新し、RLの目標がトレーニングプロセスを時期尚早に支配するのを防ぎ、継続的で安定した進歩を可能にします。生成されるソリューションの多様性は、Decoupled ClippingとDynamic Sampling(DAPO)によって積極的に促進されます。これは、特に珍しいトークンの可能性を高め、学習信号を中程度の難易度のプロンプトに戦略的に誘導します。さらに、周期的に適用されるScheduled Length Penaltyは、多様性を維持し、トレーニングが長くなるにつれてモデルが狭く収束しすぎるのを防ぎます。しかし、最も直接的なイノベーションは、RLトレーニングの期間そのものをスケーリングする行為であり、拡張されたRLが推論の限界をどこまで押し上げられるかを明示的にテストすることです。

ProRLv2の実用的な影響は、ProRLv2で全3,000RLステップを学習したモデルであるNemotron-Research-Reasoning-Qwen-1.5B-v2のパフォーマンスによって鮮やかに示されています。このコンパクトなモデルは、複雑な数学、コーディング課題、科学的問題、論理パズルなど、多様な推論タスクにおいて、オープンウェイトの15億パラメータモデルの新たなベンチマークを確立しています。そのパフォーマンスは、以前のイテレーションを上回るだけでなく、同クラスの競合モデルをも凌駕しています。重要な観察は、RLステップの増加に伴う持続的な改善です。長いトレーニングは一貫してゲインをもたらし、特にベースモデルが当初苦戦したタスクにおいて顕著であり、推論の限界が真に拡大していることを示しています。さらに、ProRLv2は汎化能力を大幅に向上させ、直接的な精度(pass@1)を高めるだけでなく、トレーニング中に遭遇しなかったタスクに対しても、新しい推論アプローチと解決戦略を考案することを可能にします。ベンチマークのゲインは大幅であり、数学で14.7%、コーディングで13.9%、論理パズルで驚異的な54.8%、STEM推論で25.1%、命令追従タスクで18.1%の平均pass@1精度改善が含まれ、v2イテレーションでは以前に見たことのない、より困難なベンチマークでもさらなる改善が確認されています。

ProRLv2からの全体的な発見は深遠です。継続的な強化学習は、慎重な探索と正則化技術を綿密に適用することで、大規模言語モデルの学習能力と汎化能力を確実に拡大します。早期の性能プラトーに達したり、過学習に陥ったりするのではなく、長期間のRLトレーニングは、より小さなモデルでも、はるかに大きなモデルに匹敵する推論能力を達成する力を与えます。これは、RLプロセスそのものをスケーリングすることが、モデルサイズやデータセットのボリュームを増やすことと同様に、AI能力を進化させる上で重要であることを示唆しています。ProRLv2は、言語モデルにおける推論の認識された限界を根本的に再定義し、AI開発の未来がモデルの純粋な規模だけでなく、洗練された強化学習を通じてその学習をどこまで深く、長く拡張できるかにあることを強調しています。