Nebius AI: RL-Durchbruch stärkt Open-Weight LLMs für SWE-Agenten

Marktechpost

Die sich entwickelnde Landschaft der Software-Engineering-Automatisierung wird zunehmend durch Fortschritte bei großen Sprachmodellen (LLMs) geprägt. Ein erhebliches Hindernis blieb jedoch bestehen: Die meisten fähigen LLM-Agenten verlassen sich entweder auf proprietäre Modelle oder auf teure, lehrergestützte Trainingsmethoden. Dies hat dazu geführt, dass Open-Weight LLMs – also Modelle, deren Gewichte öffentlich verfügbar sind – für komplexe Softwareentwicklungsaufgaben nur begrenzten realen Nutzen haben. Ein jüngster Durchbruch eines gemeinsamen Forschungsteams von Nebius AI und Humanoid zielt darauf ab, dies zu ändern. Sie stellen ein neuartiges Reinforcement-Learning-Framework vor, das darauf ausgelegt ist, hochleistungsfähige, langkontextige, mehrstufige Software-Engineering-Agenten zu trainieren. Diese Forschung markiert einen entscheidenden Wandel, der über die simplen, einstufigen Interaktionen hinausgeht, die typischerweise im LLM-Reinforcement-Learning zu sehen sind, um den komplexen Anforderungen echter Softwareentwicklung gerecht zu werden.

Software-Engineering unterscheidet sich grundlegend von vielen Aufgaben, für die LLMs trainiert werden, wie z.B. mathematisches Denken oder einmalige Code-Generierung. Im Gegensatz zu diesen, die oft am Ende eine einzige Belohnung liefern, erfordert SWE, dass Agenten lange Aktionssequenzen ausführen, reichhaltiges Feedback wie Compilerfehler und Testprotokolle interpretieren und den Kontext über Hunderttausende von Tokens hinweg aufrechterhalten. Diese Komplexität führt zu mehreren Kernherausforderungen für das Reinforcement Learning. Agenten müssen über viele Schritte hinweg logische Kohärenz aufrechterhalten, was oft Kontextfenster von über 100.000 Tokens erfordert. Aktionen liefern bedeutsame, nicht-triviale Beobachtungen – wie Shell-Befehlsausgaben oder Testergebnisse –, die für die Steuerung nachfolgender Entscheidungen entscheidend sind. Darüber hinaus sind Erfolgssignale typischerweise spärlich und verzögert, sie treten erst am Ende komplexer Interaktionen auf, was es schwierig macht, bestimmten Aktionen den Erfolg zuzuschreiben. Die Bewertung des Fortschritts ist ebenfalls komplex, erfordert das vollständige Ausrollen der Trajektorie und kann aufgrund der Unzuverlässigkeit von Tests verrauscht sein.

Um diese Herausforderungen zu bewältigen, entwickelte das Forschungsteam eine zweistufige Lernpipeline zum Training eines Qwen2.5-72B-Instruct-Agenten. Der Prozess beginnt mit dem Rejection Fine-Tuning (RFT), einer überwachten Methode, bei der der Agent über 7.249 streng gefilterte Software-Engineering-Aufgaben aus dem SWE-REBENCH-Datensatz ausgeführt wird. Nur erfolgreiche Interaktionsspuren – bei denen der Agent die Umgebungstestsuite besteht – werden zum Fine-Tuning des Modells verwendet, wobei während des Trainings besonders darauf geachtet wird, ungültige umgebungsformatierende Aktionen zu maskieren. Allein dieser erste Schritt erhöhte die Basisgenauigkeit auf dem SWE-bench Verified Benchmark signifikant von 11% auf 20%.

Auf dieser Grundlage kommt in der zweiten Phase Reinforcement Learning zum Einsatz, das einen modifizierten Decoupled Advantage Policy Optimization (DAPO)-Algorithmus verwendet. Es wurden mehrere wichtige Modifikationen eingeführt, um Skalierbarkeit und Stabilität zu verbessern. Asymmetric Clipping wurde implementiert, um einen Kollaps der Policy-Entropie zu verhindern und sicherzustellen, dass der Agent weiterhin neue Lösungen erkundet. Dynamic Sample Filtering konzentriert die Optimierung auf Trajektorien, die tatsächliche Lernsignale liefern, was das Training effizienter macht. Length Penalties verhindern übermäßig lange Episoden und helfen dem Agenten, nicht in unproduktiven Schleifen stecken zu bleiben. Schließlich stellt Token-Level Averaging sicher, dass jedes Token in jeder Trajektorie gleichermaßen zum Gradienten beiträgt, wodurch längere, komplexere Interaktionen einen angemessenen Einfluss auf die Updates ausüben können. Der Agent selbst verwendet eine ReAct-ähnliche Schleife, die es ihm ermöglicht, Denkprozesse mit praktischer Werkzeugnutzung zu kombinieren. Sein robustes Toolkit umfasst die Fähigkeit, beliebige Shell-Befehle auszuführen, präzise Code-Bearbeitungen vorzunehmen, Navigations- und Suchfunktionen zu nutzen und das Ende einer Episode zu signalisieren. Jede Interaktion basiert auf einer robusten Sandbox-Umgebung, die aus realen Repository-Snapshots initialisiert und mit GitHub-ähnlichen Problembeschreibungen versehen wird.

Ursprünglich mit einer Kontextlänge von 65.000 Tokens trainiert – bereits doppelt so viel wie die meisten offenen Modelle – stagnierte die Leistung des Agenten bei 32%. Um darüber hinauszugehen, erweiterte eine zweite Reinforcement-Learning-Phase den Kontext auf 131.000 Tokens und verdoppelte die maximale Episodenlänge. Diese Phase konzentrierte das nachfolgende Training nur auf die vorteilhaftesten Aufgaben, wodurch das Modell in der Lage war, die längeren Stack-Traces und Diff-Historien, die bei realen Debugging- und Patching-Aufgaben anfallen, zu skalieren.

Die Ergebnisse sind überzeugend. Der final trainierte RL-Agent erreichte eine Pass@1-Genauigkeit von 39% auf dem SWE-bench Verified Benchmark, was die Leistung der Rejection Fine-Tuned Baseline effektiv verdoppelt. Entscheidend ist, dass er die Leistung von hochmodernen Open-Weight-Modellen wie DeepSeek-V3-0324 erreichte, und das alles ohne lehrerbasierte Überwachung. Auf den zurückgehaltenen SWE-rebench-Splits blieben die Ergebnisse wettbewerbsfähig, was die Robustheit der Methode zeigt: 35% für Mai und 31,7% für Juni. Im direkten Vergleich mit den besten offenen Baselines und spezialisierten Software-Engineering-Agenten entsprach oder übertraf dieser RL-Agent konsistent mehrere Modelle, was die Effektivität dieser Reinforcement-Learning-Methodik im Bereich der autonomen Softwareentwicklung bestätigt.

Trotz dieser Fortschritte bleiben Herausforderungen bestehen. Die Kreditzuweisung in spärlichen Belohnungsregimen ist weiterhin grundsätzlich schwierig, was darauf hindeutet, dass zukünftige Arbeiten die Belohnungsformung, Schritt-für-Schritt-Kritiker oder präfixbasierte Rollouts für granulareres Feedback untersuchen könnten. Reale Agenten müssen auch Unsicherheiten abschätzen, wissen, wann sie sich enthalten oder Vertrauen ausdrücken sollen, wobei Techniken wie die Ausgabe-Entropie oder explizite Konfidenzbewertung als nächste Schritte dienen. Das Training selbst war ein erhebliches Unterfangen, das Kontextparallelisierung nutzte, um lange Sequenzen auf 16 H200-Knoten aufzuteilen, wobei die verteilte Orchestrierung über Kubernetes und Tracto AI verwaltet wurde und vLLM für schnelle Inferenz sorgte.

Diese Forschung validiert Reinforcement Learning als ein potentes Paradigma für den Aufbau autonomer Software-Ingenieure unter Verwendung von Open-Weight LLMs. Durch die Bewältigung von Langzeit-, Mehrfach- und Realumgebungsaufgaben ebnet die Methodik den Weg für eine skalierbare, lehrerfreie Agentenentwicklung, die direkt die Kraft der Interaktion statt statischer Anweisungen nutzt. Mit weiteren Verfeinerungen versprechen solche Reinforcement-Learning-Pipelines eine effiziente, zuverlässige und vielseitige Automatisierung für die Zukunft des Software-Engineerings.

Nebius AI: RL-Durchbruch stärkt Open-Weight LLMs für SWE-Agenten - OmegaNext KI-Nachrichten