强化学习的实用崛起:构建竞争性AI优势
强化学习(RL)曾被长期认为是主要局限于学术研究或少数尖端科技公司的高度复杂领域,但它正迅速成为企业人工智能的实用工具。尽管最初的应用,如基于人类反馈的强化学习(RLHF),主要侧重于使大型语言模型(LLM)与人类偏好保持一致,但该领域已显著扩展。如今,RL正在推动高级推理模型和自主智能体的开发,它们能够解决复杂的、多步骤的问题,这标志着企业AI战略的重大转变。
通过手动提示工程来优化基础模型的传统方法,对企业而言往往难以为继。团队经常发现自己陷入一个令人沮丧的循环中:试图纠正一个错误,却不经意间引入了另一个错误。例如,一家财富100强金融服务机构在分析10-K报告等复杂金融文件时就遇到了这一挑战,其中即使是微小的错误也可能带来巨大的法律风险。团队没有进行无休止的提示调整,而是转向了RL,利用自动验证系统对Llama模型进行了微调。该系统根据源文档检查响应,从而无需手动干预。结果是,该模型能够独立推理而非仅仅记忆,其效率提高了一倍,并且在与GPT-4o等高级模型的对比中,其准确率从基线的27%提升到58%。这一演变凸显了现代RL的一个核心优势:它实现了从静态示例到动态反馈系统的转变,将用户的角色从数据标注者转变为积极的评论者,提供有针对性的见解。对于代码生成等客观任务,这种反馈可以通过单元测试来完全自动化,以验证正确性,使模型能够通过迭代试错来学习。
RL最强大的应用之一在于教导模型逐步推理问题。企业AI公司Aible通过一个引人注目的类比对此进行了阐释,将“宠物训练”与“实习生训练”进行了对比。传统的监督式微调类似于宠物训练——仅根据最终输出进行奖励或惩罚——而强化学习则促进了“实习生训练”,允许对中间推理步骤提供反馈,这很像指导人类员工。这种细粒度的指导带来了显著成果:Aible通过对仅仅1000个示例提供反馈,就使模型在专业企业任务上的准确率从16%跃升至84%,而计算成本仅为11美元。同样,金融机构正在通过Fin-R1等模型取得突破,这是一种专为金融推理设计的70亿参数模型。通过在包含逐步推理链的精选数据集上进行训练,这个紧凑型模型在ConvFinQA上取得了85.0分,在FinQA上取得了76.0分,超越了许多更大的通用模型。这种方法对于自动化合规检查和机器人顾问服务至关重要,因为监管机构要求透明的、逐步的推理过程。
RL的前沿应用涉及训练自主智能体来执行复杂的业务工作流程。这通常需要创建安全的模拟环境,常被称为“RL训练场”,智能体可以在其中练习多步骤任务,而不会影响实时生产系统。这些环境复制了真实的业务应用程序,模拟用户界面状态和系统响应,以进行安全的实验。中国初创公司Monica利用这种方法开发了Manus AI,创建了一个由规划智能体、执行智能体和验证智能体组成的复杂多智能体系统。通过RL训练,Manus动态调整其策略,在GAIA真实世界任务自动化基准测试中取得了最先进的性能,成功率超过65%。在电子商务领域,eBay的研究人员对多步骤欺诈检测应用了一种新颖的方法,将其重新定义为跨三个阶段的顺序决策问题:预授权筛选、发卡方验证和授权后风险评估。他们的创新在于使用大型语言模型自动生成和完善训练的反馈机制,从而绕过了传统手动奖励工程的瓶颈。该系统在超过600万笔真实的eBay交易中得到验证,将欺诈检测精度提高了4到13个百分点,同时保持了低于50毫秒的响应时间,以实现实时处理。
然而,大规模实施RL仍然面临重大的基础设施挑战。Anthropic与Surge AI合作训练Claude的案例,凸显了生产级RLHF所需的专业平台。传统的众包平台缺乏评估复杂语言模型输出所需的专业知识,从而造成了瓶颈。Surge AI的平台凭借其领域专家标注员和专有质量控制算法,使Anthropic能够在不同领域收集细致入微的人类反馈,同时保持基本的数据质量标准。
尽管存在这些复杂性,RL已在企业规模上得到部署。例如,Apple Intelligence代表了消费技术领域最大的RL部署之一,在其设备端和服务器端模型中使用了REINFORCE留一法(RLOO)算法。这种分布式RL基础设施将所需设备数量减少了37.5%,计算时间缩短了75%,从而在性能基准测试中带来了可衡量的4-10%的改进,尤其是在指令遵循和实用性方面——这些都是用户直接体验到的交互方面。同样,企业AI公司Cohere通过创新的去中心化训练方法开发了Command A,该方法结合了六个领域特定的专家模型。多种RL技术优化了合并模型的性能,使其在通用任务上对GPT-4o的人类偏好评分从43.2%提高到50.4%,在推理和编码方面取得了更大的进步。对于全球企业应用而言,文化复杂性带来了独特的挑战。一家北美主要科技公司与Macgence合作,在全球不同市场实施RLHF,处理了80,000项专业标注任务,包括多语言翻译、偏见缓解和文化敏感性。这些传统监督学习范围之外的细微之处,只能通过强化学习方法进行的迭代式人类反馈学习来解决。
至关重要的是,企业平台正在同时使RL技术更易于获取。Databricks的测试时自适应优化(TAO)允许组织仅使用现有AI应用程序生成的未标注使用数据来提高模型性能。与需要昂贵的人工标注数据的方法不同,TAO利用强化学习仅使用历史输入示例来教导模型更好地完成任务。通过创建一个“数据飞轮”——即已部署的应用程序自动生成训练输入——这种方法使像Llama这样的经济高效的开源模型能够达到与昂贵的专有替代方案相当的质量水平。
尽管RL对于大多数组织而言仍是小众能力,许多高级实现仍源自大型科技公司,但研究管道强大且正在迅速扩展。各种举措包括优化汇编代码以获得硬件特定增益,以及开发自动为更难问题分配计算资源的系统。包括SkyRL、verl和NeMo-RL等框架在内的开源生态系统,也代表着这些能力民主化的有希望的进展。然而,在创建直观界面方面仍有大量工作要做,这些界面应允许领域专家指导训练过程,而无需深厚的RL专业知识。越来越强大的基础模型、成熟的RL技术和新兴工具的融合表明我们正处于一个拐点。随着推理增强模型成为标准,以及企业要求更复杂的定制,强化学习似乎正准备从一种专业的研*究技术转变为组织寻求最大化其AI投资所必需的基础设施。