GEPA:超越强化学习,实现LLM经济高效优化

Venturebeat

一种名为GEPA的新型人工智能优化方法有望彻底改变大型语言模型(LLM)针对特定任务的定制方式,大幅削减成本和开发时间。由加州大学伯克利分校、斯坦福大学和Databricks的研究人员开发,GEPA超越了传统的强化学习(RL)范式,后者依赖于数千次代价高昂的试错尝试。相反,GEPA使LLM能够利用自身的语言理解能力来反思性能、诊断错误并迭代地完善其指令,从而实现卓越的准确性和效率,通常可将试运行次数减少多达35倍。

优化现代企业AI应用——通常被称为“复合AI系统”,即通过外部工具将多个LLM模块串联起来的复杂工作流程——提出了重大挑战。优化这些系统的一个常见方法是强化学习,例如群组相对策略优化(GRPO)等方法。该技术将AI系统视为一个黑箱,向其提供简单的数值反馈或“标量奖励”,以逐步调整其内部参数。然而,RL的“样本效率低下”需要大量的试运行或“rollout”,这使得涉及API查询或代码编译等昂贵操作的实际应用变得极其缓慢和昂贵。GEPA论文的合著者、加州大学伯克利分校博士生Lakshya A Agrawal强调了这一障碍,指出RL的成本和复杂性常常迫使团队转向效率较低的手动“提示工程”。他解释说,GEPA专为利用无法直接微调的顶级专有模型的团队而设计,无需管理自定义GPU集群即可实现性能提升。

GEPA(代表Genetic-Pareto,即遗传-帕累托)通过用丰富的自然语言反馈取代稀疏的数值奖励来解决这个问题。它利用了这样一个事实:整个AI系统的执行过程,包括其推理步骤、工具调用和错误消息,都可以转换为LLM能够理解的文本。该方法论基于三个核心支柱。首先,“遗传提示进化”将提示视为一个基因库,智能地对其进行“突变”以生成改进版本。这种突变由“自然语言反馈反思”驱动。经过几次试运行后,GEPA会向LLM提供完整的执行轨迹和结果,使其能够反思这些文本反馈,诊断问题,并制定更详细、更完善的提示。例如,LLM可能不再仅仅记录低分,而是分析编译器错误并推断提示需要指定特定的库版本。

第三个支柱“基于帕累托的选择”确保了智能探索。GEPA不会仅仅关注表现最佳的单个提示(这可能导致陷入次优的“局部最优”),而是维护一个多样化的“专家”提示列表。它跟踪哪些提示在不同的单个示例上表现出色,从而创建一份强大的候选列表。通过从这组多样化的成功策略中进行抽样,GEPA探索了更广泛的解决方案,增加了发现强大提示的可能性。这一过程的成功取决于“反馈工程”,Agrawal解释说,这是指将AI系统已经产生但传统上被丢弃的丰富文本细节浮出水面。

在对各种任务的评估中,GEPA始终优于包括基于RL的GRPO在内的既定基线。使用开源和专有LLM,GEPA的得分比GRPO高出19%,同时所需的试运行次数减少了35倍。Agrawal引用了一个引人注目的例子:优化一个问答系统,GEPA大约需要三个小时,而GRPO需要24小时——开发时间减少了8倍,同时性能提升了20%。成本节约也同样可观,GEPA在GPU时间上的成本不到20美元就能获得更好的结果,而他们测试中基于RL的优化大约需要300美元——节省了15倍。

除了原始性能,GEPA优化的系统在遇到新的、未见过的数据时表现出更高的可靠性,这体现在更小的“泛化差距”(训练和测试性能之间的差异)。Agrawal将这归因于GEPA更丰富的自然语言反馈,它促进了对成功的更广泛理解,而不仅仅是学习特定于训练数据的模式。对于企业而言,这意味着更具弹性和适应性的AI应用。此外,GEPA基于指令的提示比其他优化器生成的提示短9.2倍,显著降低了生产中基于API的模型的延迟和运营成本。

这项研究还强调了GEPA作为一种“推理时”搜索策略的潜力,将AI从单一答案生成器转变为迭代问题解决器。Agrawal设想将GEPA集成到公司的持续集成/持续交付(CI/CD)管道中,在那里它可以自动生成、优化和测试多个优化的代码版本,然后提出表现最佳的变体进行审查。这种“持续的自动化过程”可以快速产生通常与专家手动调整相当甚至超越的解决方案。

作者认为GEPA代表了AI开发新范式的奠基性一步。然而,其最直接的影响可能在于使高性能AI系统的访问民主化。Agrawal总结说,GEPA有望使AI系统优化对拥有关键领域专业知识但缺乏时间或兴趣掌握强化学习复杂性的最终用户而言变得易于接近。它有效地赋能了那些拥有最相关任务特定知识的关键利益相关者。