Nebius AI 借 RL 突破,赋能开源 LLM 打造软件工程智能体
软件工程自动化不断演进的格局正日益受到大型语言模型(LLMs)进步的影响。然而,一个重大障碍一直存在:大多数有能力的 LLM 智能体要么依赖专有模型,要么依赖昂贵、由教师指导的训练方法。这使得开源大语言模型——即那些模型公开可用的模型——在复杂的软件开发任务中实际应用价值有限。Nebius AI 和 Humanoid 的联合研究团队最近取得了一项突破,旨在改变这一现状,他们引入了一种新颖的强化学习框架,旨在训练具备高能力、长上下文、多轮交互能力的软件工程智能体。这项研究标志着一个关键性转变,它超越了LLM强化学习中常见的简单单轮交互,以应对真正的软件工程的复杂需求。
软件工程与许多LLM训练的任务(例如数学推理或一次性代码生成)有着根本区别。与这些任务通常在结束时提供单一奖励不同,软件工程要求智能体执行长序列动作,解释编译器错误和测试日志等丰富的反馈,并维持数十万个 token 的上下文。这种复杂性为强化学习带来了几个核心挑战。智能体必须在多个步骤中保持逻辑连贯性,这通常需要超过100,000个 token 的上下文窗口。动作会产生有意义的非平凡观察结果——例如 shell 命令输出或测试套件结果——这些对于指导后续决策至关重要。此外,成功信号通常稀疏且延迟,仅在复杂交互结束时才会出现,这使得很难将功劳归因于特定动作。评估进展也同样复杂,需要完整的轨迹展开,并且由于测试的不稳定性可能存在噪声。
为应对这些挑战,研究团队开发了一个两阶段学习流水线,用于训练 Qwen2.5-72B-Instruct 智能体。该过程从拒绝微调(RFT)开始,这是一种监督学习方法,其中智能体在 SWE-REBENCH 数据集的7,249个经过严格过滤的软件工程任务上运行。只有成功的交互轨迹——即智能体通过环境测试套件的情况——才用于微调模型,训练期间特别注意屏蔽无效的环境格式化动作。仅此初始步骤就显著将 SWE-bench Verified 基准测试的基线准确率从11%提高到20%。
在此基础上,第二阶段采用强化学习,使用改进的解耦优势策略优化(DAPO)算法。为增强可扩展性和稳定性,引入了几项关键修改。实施了非对称剪裁以防止策略熵崩溃,确保智能体继续探索新解决方案。动态样本过滤将优化重点放在产生实际学习信号的轨迹上,从而提高训练效率。长度惩罚则阻止过长的回合,帮助智能体避免陷入无用的循环。最后,Token 级别平均确保每个轨迹中的每个 token 都对梯度做出同等贡献,从而使更长、更复杂的交互能够对更新产生适当的影响。智能体本身采用 ReAct 风格的循环,使其能够将推理步骤与实际工具使用相结合。其强大的工具包包括执行任意 shell 命令、进行精确代码编辑、使用导航和搜索实用程序以及发出回合完成信号的能力。每次交互都基于一个强大的沙盒环境,该环境从真实的仓库快照初始化,并呈现 GitHub 风格的问题提示。
最初以 65,000 个 token 的上下文长度进行训练——这已是大多数开源模型的两倍——智能体的性能稳定在32%。为了突破这一限制,第二阶段强化学习将上下文扩展到131,000个 token,并将回合长度上限翻倍。此阶段将后续训练仅集中在最有益的任务上,使模型能够适应真实世界调试和打补丁任务中固有的更长的堆栈跟踪和差异历史记录。
结果令人瞩目。最终经过强化学习训练的智能体在 SWE-bench Verified 基准测试上取得了 39% 的 Pass@1 准确率,有效使拒绝微调基线的性能翻倍。至关重要的是,它与 DeepSeek-V3-0324 等尖端开源模型的性能相当,而且无需教师监督。在保留的 SWE-rebench 分割测试中,分数仍具竞争力,展示了该方法的稳健性:五月为 35%,六月为 31.7%。与顶级开源基线和专业软件工程智能体进行正面比较时,该强化学习智能体始终与多个模型持平或超越,证实了这种强化学习方法在自主软件开发领域的有效性。
尽管取得了这些进展,挑战依然存在。在稀疏奖励机制中,归因问题仍然是根本性难题,这表明未来的工作可以探索奖励塑造、步骤级评论器或基于前缀的展开以获取更细粒度的反馈。真实的智能体还需要估计不确定性,知道何时放弃或表达信心,下一步可采用输出熵或明确的信心评分等技术。训练本身是一项艰巨的任务,利用上下文并行化将长序列分解到16个 H200 节点上,通过 Kubernetes 和 Tracto AI 管理分布式编排,并使用 vLLM 进行快速推理。
这项研究果断地验证了强化学习是使用开源大语言模型构建自主软件工程师的强大范式。通过征服长周期、多轮、真实环境的任务,该方法为可扩展、无需教师的智能体开发铺平了道路,直接利用交互的力量而非静态指令。通过进一步的改进,此类强化学习流水线有望为未来的软件工程提供高效、可靠和多功能的自动化。