Databricks 推出 PGRM:混合式 AI 评判与奖励模型,实现可扩展监督
随着人工智能日益融入商业运营,确保这些系统有用、安全并符合特定要求带来了巨大挑战,尤其是在大规模部署时。传统的监督方法(如人工审查)速度慢且成本高昂,而现有监控工具往往僵化、效率低下或不透明。业界长期以来一直在寻求一种可靠、适应性强且透明的解决方案,用于评估和控制人工智能行为,而无需深厚的专业知识。
Databricks 正通过其全新的提示引导奖励模型(PGRM)来满足这一关键需求。PGRM 可以被设想为一名 AI 质量控制检查员,能够即时适应新规则,标记不确定的案例以供人工审查,并为每个决策提供清晰、有信心支持的评分。它提供了大型语言模型(LLM)作为评判员的灵活性,同时结合了专用分类器的高效率和精确校准。无论是目标是执行安全准则、确保事实准确性,还是使 AI 输出符合特定的品牌标准,PGRM 都承诺使大规模、透明的监督成为可能。
PGRM 对 AI 开发和部署的影响是多方面的。它使组织能够使用单一、适应性强的提示来统一其 LLM 安全防护和评估流程,从而让专家将精力集中在最需要的地方。至关重要的是,它促进了监督机制随着业务需求变化而演进,无需从头进行昂贵的再训练。除了基本监控之外,PGRM 还支持高级奖励建模工作流程,自动识别最有效的 AI 响应,通过强化学习促进模型微调,并在显著减少人工干预的情况下推动持续改进。
Databricks 的内部基准测试突显了 PGRM 的双重优势。作为 LLM 评判员,它在评估判断质量方面达到了 83.3% 的平均准确率,在答案正确性、上下文忠实度等关键评估任务上,其表现与 GPT-4o(83.6%)等领先前沿模型非常接近。此外,在 RewardBench2(一个要求严格的全新奖励建模公共基准)上,PGRM 排名第二的序列分类器,总体排名第四,得分为 80.0。这一性能超越了大多数专用奖励模型,甚至在细粒度奖励评估方面,其表现也优于 GPT-4o(64.9)和 Claude 4 Opus(76.5)等高级 LLM。这使得 PGRM 成为一个开创性的模型,在可指导的评判和高精度奖励建模方面都提供了最先进的结果,同时不牺牲效率。
PGRM 的开发源于这样一个认识:评判和奖励建模,尽管通常被分开处理,但本质上是同一枚硬币的两面。最常见的人工智能监督自动化解决方案是指导 LLM 根据自然语言指南“判断”AI 系统是否行为得当。虽然 LLM 评判员具有高度适应性——允许通过简单的规则定义“安全”、“真实”或“符合品牌”等标准——但它们成本高昂,并且在估计自身判断的置信度方面臭名昭著地不可靠。
相反,奖励模型(RMs)是经过训练的专用分类器,用于预测人类对 AI 响应的评分。它们高效且可扩展,非常适合通过诸如人类反馈强化学习(RLHF)等技术将基础模型与人类偏好对齐,或从多个 AI 生成的选项中选择最佳响应。与 LLM 评判员不同,RMs 经过校准,这意味着它们可以准确传达其对预测的确定性。然而,传统的 RMs 通常针对一组固定的标准进行调整,每当“好”的定义发生变化时,都需要昂贵的再训练,从而限制了它们在动态评估或监控场景中的使用。
PGRM 通过将 LLM 评判员的可指导性封装在奖励模型的框架内,弥合了这一关键差距。其结果是一种混合模型,结合了奖励模型(RM)的速度和校准能力与 LLM 评判员的灵活性。这种创新方法意味着 PGRM 具有可指导性(允许使用自然语言指令进行评分)、可扩展性(避免 LLM 的计算开销)和校准性(准确传达其判断的置信度)。这种独特的组合在 AI 评估中提供了前所未有的控制和可解释性。
PGRM 的实际应用非常广泛,有望重塑 AI 开发生命周期。它通过允许使用单一、可调的提示来管理安全防护和评判员,从而简化了监督,确保 AI 与不断变化的业务规则保持一致。其校准的置信度分数支持有针对性的质量分类,有助于识别需要专家关注的模糊案例,从而减少浪费的审查工作并加速高质量数据集的整理。此外,PGRM 通过允许组织轻松调整何为“好”或“坏”响应,促进了领域专家对齐,确保自动化判断符合内部标准。最后,其奖励建模能力可以在强化学习微调期间自动发现并推广最佳 AI 响应,从而推动质量、安全性和对齐方面的持续、有针对性的改进。
Databricks 已经将 PGRM 整合到其研究和产品中,例如,将其用作某些自定义 LLM 产品中微调的奖励模型。这使得即使没有大量标记数据也能创建高质量、任务优化的模型。公司将 PGRM 视为更广泛的可控奖励建模研究议程的初步步骤。未来的方向包括教导 PGRM 执行细粒度、令牌级别的判断,以增强推理时安全防护和价值引导搜索,以及探索结合推理和校准判断的新颖架构。