Nebius AI、RLの画期的な進歩でSWEエージェント向けオープンウェイトLLMを強化

Marktechpost

ソフトウェアエンジニアリング自動化の進化する状況は、大規模言語モデル(LLM)の進歩によってますます形成されています。しかし、重大なハードルが残っていました。ほとんどの有能なLLMエージェントは、プロプライエタリモデルに依存するか、高価な教師指導型トレーニング方法に依存しています。これにより、オープンウェイトLLM(公開されているモデルを持つもの)は、複雑なソフトウェア開発タスクにおいて実用性が限られていました。Nebius AIとHumanoidの共同研究チームによる最近の画期的な進歩は、この状況を変えることを目指しており、高性能で長文脈、マルチターンのソフトウェアエンジニアリングエージェントを訓練するために設計された新しい強化学習フレームワークを導入しました。この研究は、LLM強化学習で一般的に見られる単純なシングルターンインタラクションを超え、真のソフトウェアエンジニアリングの複雑な要求に対処する上で極めて重要な変化を示しています。

ソフトウェアエンジニアリングは、数学的推論やワンショットのコード生成など、LLMが訓練される多くのタスクとは根本的に異なります。これらのタスクが最後に単一の報酬を提供するのに対し、SWEではエージェントが長大な一連のアクションを実行し、コンパイラエラーやテストログなどの豊富なフィードバックを解釈し、数十万トークンにわたるコンテキストを維持する必要があります。この複雑さは、強化学習にいくつかの主要な課題をもたらします。エージェントは多くのステップにわたって論理的な一貫性を維持する必要があり、しばしば100,000トークンを超えるコンテキストウィンドウが必要です。アクションは、シェルコマンドの出力やテストスイートの結果など、意味のある非自明な観測結果をもたらし、これらはその後の決定を導く上で極めて重要です。さらに、成功シグナルは通常、疎で遅延しており、複雑なインタラクションの終わりにのみ現れるため、特定のアクションに功績を帰属させることが困難です。進捗の評価も複雑で、完全な軌道展開が必要であり、テストの不安定性によりノイズが多くなる可能性があります。

これらの課題に対処するため、研究チームはQwen2.5-72B-Instructエージェントをトレーニングするための2段階の学習パイプラインを開発しました。プロセスはRejection Fine-Tuning(RFT)から始まります。これは、SWE-REBENCHデータセットから厳密にフィルタリングされた7,249のソフトウェアエンジニアリングタスクでエージェントを実行する教師あり学習手法です。成功したインタラクションのトレース(エージェントが環境テストスイートに合格した場合)のみがモデルのファインチューニングに使用され、トレーニング中に無効な環境フォーマットアクションをマスキングすることに特に注意が払われました。この初期ステップだけで、SWE-bench Verifiedベンチマークでのベースライン精度が11%から20%に大幅に向上しました。

この基盤の上に、第2段階では修正されたDecoupled Advantage Policy Optimization(DAPO)アルゴリズムを使用した強化学習が採用されています。スケーラビリティと安定性を向上させるために、いくつかの重要な修正が導入されました。ポリシーのエントロピー崩壊を防ぎ、エージェントが新しいソリューションを探求し続けることを確実にするために、非対称クリッピングが実装されました。動的サンプルフィルタリングは、実際の学習シグナルを生み出す軌道に最適化を集中させ、トレーニングをより効率的にします。長さペナルティは過度に長いエピソードを抑制し、エージェントが非生産的なループにはまり込むのを防ぎます。最後に、トークンレベル平均化は、すべての軌道のすべてのトークンが勾配に等しく貢献することを保証し、より長く複雑なインタラクションが更新に適切な影響を与えることを可能にします。エージェント自体はReActスタイルのループを利用しており、推論ステップと実用的なツール使用を組み合わせることができます。その堅牢なツールキットには、任意のシェルコマンドの実行、正確なコード編集、ナビゲーションおよび検索ユーティリティの使用、エピソード完了のシグナル送信の機能が含まれています。各インタラクションは、実際のレポジトリのスナップショットから初期化され、GitHubスタイルの問題プロンプトが提示される堅牢なサンドボックス環境に基づいています。

当初、コンテキスト長65,000トークン(ほとんどのオープンモデルの2倍)で訓練されたエージェントの性能は32%で頭打ちになりました。これをさらに押し進めるため、第2の強化学習フェーズではコンテキストを131,000トークンに拡張し、エピソード長の上限を2倍にしました。このフェーズでは、その後の訓練を最も有益なタスクのみに集中させ、モデルが現実世界のデバッグやパッチ適用タスクに内在するより長いスタックトレースや差分履歴に対応できるようにしました。

結果は説得力があります。最終的にRL訓練されたエージェントは、SWE-bench Verifiedベンチマークで39%のPass@1精度を達成し、リジェクションファインチューニングのベースラインの性能を実質的に2倍にしました。重要なことに、教師による監督を必要とせずに、DeepSeek-V3-0324のような最先端のオープンウェイトモデルの性能に匹敵しました。保持されたSWE-rebench分割データセットでは、スコアは競争力を維持し、この手法の堅牢性を示しています。5月は35%、6月は31.7%でした。トップのオープンベースラインや専門のソフトウェアエンジニアリングエージェントと直接比較した場合、このRLエージェントは複数のモデルに一貫して匹敵するか、それを上回っており、自律型ソフトウェア開発の領域におけるこの強化学習手法の有効性を裏付けています。

これらの進歩にもかかわらず、課題は残っています。スパースな報酬体系における功績の割り当ては依然として根本的に困難であり、将来の研究では、よりきめ細かいフィードバックのために報酬の整形、ステップレベルの批評家、またはプレフィックスベースのロールアウトを探求できることが示唆されます。現実世界のエージェントはまた、出力エントロピーや明示的な信頼度スコアリングなどの手法を次のステップとして、不確実性を推定し、いつ棄権するか、いつ自信を表明するかを知る必要があります。トレーニング自体は重要な取り組みであり、コンテキスト並列処理を活用して長いシーケンスを16個のH200ノードに分割し、KubernetesとTracto AIを介して分散オーケストレーションを管理し、高速推論のためにvLLMを使用しました。

この研究は、オープンウェイトLLMを使用して自律型ソフトウェアエンジニアを構築するための強力なパラダイムとして、強化学習を決定的に検証します。長期間、マルチターン、実環境のタスクを克服することで、この手法は、静的な命令ではなくインタラクションの力を直接活用する、スケーラブルで教師不要のエージェント開発への道を開きます。さらなる改良により、このような強化学習パイプラインは、将来のソフトウェアエンジニアリングに対して効率的、信頼性、かつ多用途な自動化を提供することを約束します。