LangSmith 中的 Align Evals:让 LLM 评估与人类偏好精准对齐

Langchain

在大型语言模型 (LLM) 应用开发不断演进的格局中,准确可靠的评估至关重要。开发人员频繁迭代他们的应用程序,优化提示、更新逻辑或改变架构。评估是衡量输出并衡量这些变化影响的关键工具。然而,开发团队强调的一个普遍挑战是自动化评估分数与人类判断之间存在显著差异。这种不一致可能导致不可靠的比较和错误导向的开发工作。

为解决此问题,LangSmith 推出了 Align Evals,这是一项旨在校准“LLM 作为评判者”的评估器,使其更好地反映人类偏好的新功能。这项创新借鉴了构建有效基于 LLM 的评估系统的洞察。Align Evals 目前已向所有 LangSmith Cloud 用户开放,自托管版本计划于本周晚些时候发布。

传统上,优化“LLM 作为评判者”的评估器往往涉及一定程度的猜测。识别评估器行为中的模式或不一致性,以及精确理解提示修改后分数为何变化,一直是一项复杂的任务。新的“LLM 作为评判者”对齐功能旨在通过为开发人员提供增强的迭代和分析工具来简化此过程。

Align Evals 的主要功能包括:

  • 交互式提示迭代: 类似游乐场的界面允许开发人员优化其评估器提示,并即时查看“对齐分数”,该分数指示 LLM 的评估与人类基准的匹配程度。

  • 并排比较: 该功能支持人类评分数据与 LLM 生成分数之间的直接比较。此视图可以进行排序,以快速识别 LLM 判断与人类期望显著偏离的“未对齐”案例。

  • 基线跟踪: 开发人员可以保存基线对齐分数,从而方便地比较其最新的提示更改与之前版本。

Align Evals 中的对齐过程遵循结构化的四步工作流程:

  1. 定义评估标准: 最初的步骤是建立反映应用程序预期性能的精确评估标准。例如,在聊天应用程序中,标准可能包括正确性和简洁性,认识到即使技术上准确但过于冗长的回复仍然可能令用户不满意。

  2. 策划人工评审数据: 开发人员从其应用程序的输出中选择一组具有代表性的示例进行人工评审。该数据集应包含一系列场景,包括高质量和次优的响应,以充分覆盖应用程序可能生成的输出范围。

  3. 建立黄金集分数: 对于每个定义的评估标准,人工评审员手动为策划的示例分配分数。这些人工分配的分数构成了“黄金集”,作为衡量 LLM 评估器性能的基准。

  4. 迭代和对齐评估器提示: 为 LLM 评估器制作初始提示。然后,此提示将根据人工评分的示例进行测试。对齐结果提供反馈,指导迭代改进过程。例如,如果 LLM 持续对某些回复评分过高,可以调整提示以包含更清晰的负面标准。这种迭代方法对于提高评估器的对齐分数至关重要。

展望未来,LangSmith 计划进一步增强评估能力。未来的发展预计将包括分析工具,以跟踪评估器随时间变化的性能,提供对其演变的更深入洞察。此外,该平台旨在引入自动提示优化,系统可以生成提示变体以进一步提高对齐度。