Databricks 推出 PGRM：混合式 AI 评判与奖励模型，实现可扩展监督

随着人工智能日益融入商业运营，确保这些系统有用、安全并符合特定要求带来了巨大挑战，尤其是在大规模部署时。传统的监督方法（如人工审查）速度慢且成本高昂，而现有监控工具往往僵化、效率低下或不透明。业界长期以来一直在寻求一种可靠、适应性强且透明的解决方案，用于评估和控制人工智能行为，而无需深厚的专业知识。

Databricks 正通过其全新的提示引导奖励模型（PGRM）来满足这一关键需求。PGRM 可以被设想为一名 AI 质量控制检查员，能够即时适应新规则，标记不确定的案例以供人工审查，并为每个决策提供清晰、有信心支持的评分。它提供了大型语言模型（LLM）作为评判员的灵活性，同时结合了专用分类器的高效率和精确校准。无论是目标是执行安全准则、确保事实准确性，还是使 AI 输出符合特定的品牌标准，PGRM 都承诺使大规模、透明的监督成为可能。

PGRM 对 AI 开发和部署的影响是多方面的。它使组织能够使用单一、适应性强的提示来统一其 LLM 安全防护和评估流程，从而让专家将精力集中在最需要的地方。至关重要的是，它促进了监督机制随着业务需求变化而演进，无需从头进行昂贵的再训练。除了基本监控之外，PGRM 还支持高级奖励建模工作流程，自动识别最有效的 AI 响应，通过强化学习促进模型微调，并在显著减少人工干预的情况下推动持续改进。

Databricks 的内部基准测试突显了 PGRM 的双重优势。作为 LLM 评判员，它在评估判断质量方面达到了 83.3% 的平均准确率，在答案正确性、上下文忠实度等关键评估任务上，其表现与 GPT-4o（83.6%）等领先前沿模型非常接近。此外，在 RewardBench2（一个要求严格的全新奖励建模公共基准）上，PGRM 排名第二的序列分类器，总体排名第四，得分为 80.0。这一性能超越了大多数专用奖励模型，甚至在细粒度奖励评估方面，其表现也优于 GPT-4o（64.9）和 Claude 4 Opus（76.5）等高级 LLM。这使得 PGRM 成为一个开创性的模型，在可指导的评判和高精度奖励建模方面都提供了最先进的结果，同时不牺牲效率。

PGRM 的开发源于这样一个认识：评判和奖励建模，尽管通常被分开处理，但本质上是同一枚硬币的两面。最常见的人工智能监督自动化解决方案是指导 LLM 根据自然语言指南“判断”AI 系统是否行为得当。虽然 LLM 评判员具有高度适应性——允许通过简单的规则定义“安全”、“真实”或“符合品牌”等标准——但它们成本高昂，并且在估计自身判断的置信度方面臭名昭著地不可靠。

相反，奖励模型（RMs）是经过训练的专用分类器，用于预测人类对 AI 响应的评分。它们高效且可扩展，非常适合通过诸如人类反馈强化学习（RLHF）等技术将基础模型与人类偏好对齐，或从多个 AI 生成的选项中选择最佳响应。与 LLM 评判员不同，RMs 经过校准，这意味着它们可以准确传达其对预测的确定性。然而，传统的 RMs 通常针对一组固定的标准进行调整，每当“好”的定义发生变化时，都需要昂贵的再训练，从而限制了它们在动态评估或监控场景中的使用。

PGRM 通过将 LLM 评判员的可指导性封装在奖励模型的框架内，弥合了这一关键差距。其结果是一种混合模型，结合了奖励模型（RM）的速度和校准能力与 LLM 评判员的灵活性。这种创新方法意味着 PGRM 具有可指导性（允许使用自然语言指令进行评分）、可扩展性（避免 LLM 的计算开销）和校准性（准确传达其判断的置信度）。这种独特的组合在 AI 评估中提供了前所未有的控制和可解释性。

PGRM 的实际应用非常广泛，有望重塑 AI 开发生命周期。它通过允许使用单一、可调的提示来管理安全防护和评判员，从而简化了监督，确保 AI 与不断变化的业务规则保持一致。其校准的置信度分数支持有针对性的质量分类，有助于识别需要专家关注的模糊案例，从而减少浪费的审查工作并加速高质量数据集的整理。此外，PGRM 通过允许组织轻松调整何为“好”或“坏”响应，促进了领域专家对齐，确保自动化判断符合内部标准。最后，其奖励建模能力可以在强化学习微调期间自动发现并推广最佳 AI 响应，从而推动质量、安全性和对齐方面的持续、有针对性的改进。

Databricks 已经将 PGRM 整合到其研究和产品中，例如，将其用作某些自定义 LLM 产品中微调的奖励模型。这使得即使没有大量标记数据也能创建高质量、任务优化的模型。公司将 PGRM 视为更广泛的可控奖励建模研究议程的初步步骤。未来的方向包括教导 PGRM 执行细粒度、令牌级别的判断，以增强推理时安全防护和价值引导搜索，以及探索结合推理和校准判断的新颖架构。

Databricks 推出 PGRM：混合式 AI 评判与奖励模型，实现可扩展监督

相关文章

DeepMind 推出 Genie 3：文本生成 3D 互动世界模型

微软Copilot生态全面集成GPT-5，AI能力跃升

谷歌Gemma 3 270M：口袋里的AI，手机端智能新突破