GPT-5 领跑法律AI基准测试,逼近“最后一英里”突破
OpenAI的GPT-5模型在法律人工智能领域取得了里程碑式的进展,在Harvey的“BigLaw Bench”评估系统中获得了令人印象深刻的89.22%分数。这一表现使GPT-5成为Harvey评估过的OpenAI模型中表现最佳的模型,Harvey是法律科技领域领先的生成式AI先驱。
去年推出的Harvey的BigLaw Bench旨在严格衡量生成式AI响应的质量,特别是评估它们与法律专业人士期望的契合度。该系统采用定制的评分标准来评估两个关键维度:“答案质量”,它审查模型响应的完整性、准确性和适当性,以有效完成任务;以及“来源可靠性”,它评估AI为其断言提供可验证和正确引用的来源的能力,从而增强信任并促进验证。分数通过累积满足任务要求的正分和扣除错误或失误(例如AI幻觉)的点数来精心计算,最终结果以百分比表示。
GPT-5的89.22%分数代表着显著的进步,比下一个最接近的OpenAI模型o3(得分为84.13%)提高了约5%。虽然Harvey评估来自多家公司的模型,但这些具体的比较结果突显了OpenAI的进步。这种性能水平开始接近行业专家所称的AI开发中的“最后一英里”领域。这指的是AI输出经过如此精炼和可靠,以至于法律专业人士可以自信地批准它们直接使用,只需最少的人工干预的最终、最具挑战性的阶段。对于许多大型语言模型而言,获得初步、有些准确的结果相对简单,但突破90%的门槛,进入“最后一英里”并达到99%的准确度,则是一个根本不同且更为艰巨的挑战。
尽管存在固有的困难,但进步无疑正在以惊人的速度进行。虽然新的生成式AI模型肯定会看到增量改进,但性能上的更大飞跃可能来自其他战略性增强,例如改进底层验证层。达到接近完美的准确度(或许是99.9%)可能还需要数年时间,这与自动驾驶等领域遇到的复杂性相似,在非结构化环境中实现高度成功极其困难,但通过持续投入最终可以实现。过去三年中法律行业的快速演变,从对AI的普遍怀疑转变为大多数大型律师事务所及其客户深入参与这项技术,突显了这些不断改进的模型性能所带来的变革性影响。如果没有大型语言模型带来的实际收益,法律AI工具的这种热情采用就不会实现。
Harvey计划通过将GPT-5的增强功能集成到其系统中来利用它们,以实现更强大的用例,特别是在文档起草和复杂研究方面。GPT-5脱颖而出,成为第一个能够结合多个任务的编排模型,允许单个AI代理既可以与用户协作进行研究,又可以生成最终工作产品。例如,在识别内部指导文件与美国和欧盟当前法规之间不一致的复杂场景中,GPT-5可以编排各种代理。这些代理可以审查内部文件以寻找相关趋势,查找全球法规的最新变化,执行全面的差距分析,然后起草一份备忘录,概述更新内部指导以确保法规一致性的建议——所有这些都可以在需要时提示用户提供额外上下文。
结合最近与法律信息巨头LexisNexis和iManage的数据合作,Harvey的系统现在可以在行动前访问公共和专有法律数据的全面视图。这种全面的数据访问,结合GPT-5显著改进的工具使用和起草能力,促进了深度集成AI系统的构建,该系统可以对组织的内部数据进行推理,并实时利用受信任的第三方内容。这一进步使Harvey更接近其核心使命:创建一个能够驾驭复杂法律事务动态、迭代和协作性质的“智能同事”。