强化学习:企业AI的下一前沿

Gradientflow

强化学习(RL)长期以来被认为是过于复杂、仅限于专业AI研究的领域,但它正迅速转变为企业人工智能的实用工具。过去一年中,这一转变变得日益明显,其应用已超越了最初主流的“人类反馈强化学习”(RLHF),后者主要旨在使模型与人类偏好保持一致。如今,RL在开发复杂的推理模型和能够处理错综复杂、多步骤问题的自主智能体方面发挥着关键作用。尽管当前仍是引人注目的案例研究(主要来自科技巨头)与新兴工具并存的混合局面,但这些早期努力预示着企业AI未来的清晰方向。

通过手动提示工程来优化基础模型的传统方法往往不可持续,使团队陷入一种“修复一个错误却无意中制造另一个错误”的循环。例如,一家财富100强金融服务机构在分析10-K报告等复杂金融文档时就遇到了这一挑战,因为不准确性会带来重大的法律风险。他们的提示工程工作陷入了无休止的修复循环,导致系统无法达到生产级别的可靠性。相比之下,采用RL使他们能够利用自动化验证系统对Llama模型进行微调。该系统自动对照源文档检查响应,从而无需手动调整提示。结果是模型能够独立推理而非仅仅记忆,其有效性翻倍,针对GPT-4o的准确率从27%的基础水平提升到58%。这体现了现代RL的一个根本优势:它实现了从静态示例到动态反馈系统的转变,将用户的角色从数据标注者转变为评论者,提供有针对性的见解。对于代码生成等客观任务,这种反馈可以通过单元测试完全自动化,使模型能够探索解决方案并从试错中学习。

RL最强大的应用之一在于教导模型逐步推理问题。企业AI公司Aible用一个比喻来说明这一点:传统的监督微调类似于“宠物训练”,反馈仅基于最终输出。然而,强化学习实现了“实习生训练”,允许对中间推理步骤提供反馈,就像指导人类员工一样。这种方法为Aible带来了显著成效;通过仅对1000个示例提供反馈,计算成本仅为11美元,模型在专业企业任务上的准确率从16%跃升至84%。关键在于对推理步骤提供细致入微的指导,这使得用户能够精确找出在仅评估最终结果时常常遗漏的细微逻辑错误。金融机构也正见证着类似的突破。研究人员开发了Fin-R1,一个专门用于金融推理的70亿参数模型。该紧凑模型通过包含分步推理链的精选金融场景数据集进行训练,在ConvFinQA上取得了85.0分,在FinQA上取得了76.0分,表现优于许多更大的通用模型。这种方法解决了关键的行业需求,包括自动化合规性检查和机器人咨询服务,在这些领域,透明、分步的推理对于监管合规性至关重要。

RL的前沿应用涉及训练自主智能体执行复杂的业务工作流。这通常需要创建安全的模拟环境,即所谓的“RL训练场”,智能体可以在其中练习多步骤任务而不会影响实时生产系统。这些环境复制了真实的业务应用程序,捕获用户界面状态和系统响应,以进行安全实验。中国初创公司Monica利用这种方法开发了Manus AI,一个复杂的多智能体系统,包括用于任务分解的规划智能体、用于实施的执行智能体和用于质量控制的验证智能体。通过RL训练,Manus动态调整其策略,在GAIA基准测试中实现了真实世界任务自动化的最先进性能,成功率超过65%,超越了竞争对手。同样,eBay研究人员通过将其构建为跨三个阶段(预授权筛选、发行方验证和授权后风险评估)的顺序决策问题,设计了一种新颖的多步骤欺诈检测系统。他们的创新之处在于使用大型语言模型自动生成和优化训练的反馈机制,绕过了手动奖励工程的传统瓶颈。该系统在六个月内对超过600万笔真实的eBay交易进行了验证,欺诈检测精度提高了4到13个百分点,同时保持了低于50毫秒的响应时间,这对于实时处理至关重要。

然而,大规模实施RL仍然面临重大的基础设施挑战。Anthropic与Surge AI合作训练其Claude模型时,突显了对生产级RLHF专用平台的需求。传统的众包平台缺乏评估复杂语言模型输出所需的专业知识,从而造成了开发瓶颈。Surge AI的平台通过领域专家标注员和专有质量控制算法解决了这一问题,使Anthropic能够在不同领域收集细致入微的人类反馈,同时保持对训练最先进模型至关重要的数据质量标准。

大规模RL部署在消费技术领域显而易见,特别是Apple Intelligence基础模型。苹果使用REINFORCE留一法(RLOO)算法开发了两个互补模型——一个30亿参数的设备端模型和一个可扩展的服务器端模型。他们的分布式RL基础设施将所需设备数量减少了37.5%,并将计算时间缩短了75%,相比传统同步训练。关键的是,RL在各项基准测试中带来了4-10%的性能提升,在指令遵循和整体帮助性方面取得了显著进步,直接增强了用户体验。同样,专注于企业AI的公司Cohere通过分散式训练方法开发了Command A。他们没有采用单一的巨型模型,而是并行训练了六个领域特定的专家模型——涵盖代码、安全性、检索、数学、多语言支持和长上下文处理——然后通过参数合并将它们结合起来。多种RL技术对合并后的模型进行了优化,使其在通用任务上针对GPT-4o的人类偏好评分从43.2%提升到50.4%,在推理和编码方面取得了更大的改进。对于全球企业应用,文化复杂性带来了独特的RL实施挑战。一家主要的北美科技公司与Macgence合作,在全球不同市场实施RLHF,处理了8万项专业标注任务,包括多语言翻译、偏见缓解和文化敏感性。这些传统监督学习方法难以处理的复杂性,需要通过强化学习方法才能实现的迭代式人类反馈学习。

同时,企业平台正在提升RL技术的可访问性。Databricks引入了测试时自适应优化(TAO),允许组织仅使用其AI应用程序已生成的未标注使用数据来提高模型性能。与需要昂贵的人工标注训练数据的传统方法不同,TAO利用强化学习仅使用历史输入示例来教导模型更好地执行任务。通过创建“数据飞轮”——部署的应用程序自动生成训练输入——这种方法使Llama等成本效益高的开源模型能够达到与昂贵专有替代品相当的质量水平。

尽管有这些引人注目的案例研究,RL对于大多数组织来说仍然是一项小众能力,许多高级实现源自科技公司。然而,正在进行的RL研究范围出人意料地广泛,其举措涵盖从汇编代码优化(Visa研究人员实现了比编译器快1.47倍的速度提升)到自动化计算资源分配(麻省理工学院和IBM)。蓬勃发展的开源生态系统,包括SkyRL、verl和NeMo-RL等框架,标志着这些能力民主化的可喜进展。然而,在创建允许领域专家指导训练过程而无需深厚RL专业知识的界面方面,仍有大量工作要做。功能日益强大的基础模型、经过验证的RL技术和新兴工具的融合表明,一个转折点即将到来。随着推理增强模型成为标准,以及企业要求更复杂的定制化,强化学习似乎有望从一种专业的研*究技术转变为组织最大限度地发挥其AI投资效用的基本基础设施。