新基准:Inclusion Arena 揭示大模型真实世界表现排名
人工智能领域正在迅速发展,新的大型语言模型(LLM)层出不穷。对于寻求整合这些强大工具的企业来说,挑战不仅在于识别有前景的候选模型,更在于理解它们在实际应用中的真实表现。虽然传统基准测试对于初步评估不可或缺,但许多测试依赖于静态数据集或受控实验室环境,往往无法捕捉模型在动态生产环境中如何真正与人类用户互动。
为了弥补这一关键空白,阿里巴巴蚂蚁集团旗下Inclusion AI的研究人员推出了Inclusion Arena。这个新颖的模型排行榜和基准测试系统将焦点从理论能力转向实用性,根据真实应用程序中用户的实际偏好对LLM进行排名。核心论点很简单:要真正评估一个LLM,必须观察人们如何使用它以及他们对其响应的偏好程度,而不仅仅是知识保留能力。
Inclusion Arena通过将其评估机制直接集成到AI驱动的应用程序中,从而区别于MMLU和OpenLLM等现有排行榜。与众包平台不同,Inclusion Arena在这些真实世界应用程序中的多轮人机对话期间,随机触发“模型对战”。目前,该框架已集成到两个应用程序中:角色聊天应用Joyland和教育交流应用T-Box。当用户与这些应用程序互动时,他们的提示会被无形地路由到多个LLM,这些LLM在幕后生成响应。用户只需选择他们最喜欢的答案,而不知道是哪个模型生成的。这种直接、无偏见的反馈构成了评估的基础。
该系统采用 Bradley-Terry 建模方法进行排名,这是一种类似于国际象棋中 Elo 评分系统(也支持 Chatbot Arena)的概率框架。虽然 Elo 和 Bradley-Terry 都擅长从成对比较中推断相对能力,但研究人员断言 Bradley-Terry 能产生更稳定的评分,为评估潜在模型能力提供了稳健的框架。然而,详尽地比较大量且不断增长的 LLM 变得计算上难以承受。为了克服这一点,Inclusion Arena 引入了两个创新组件:一个“定级赛”机制,为新注册的模型提供初始排名;以及“邻近采样”,将后续比较限制在定义的“信任区域”内的模型,从而在实际预算内最大化信息增益。
Inclusion AI 的初步实验,截至 2025 年 7 月的数据显示,来自两个集成应用程序的 46,611 多名活跃用户贡献了超过 501,003 次成对比较。Inclusion Arena 的初步结果表明,Anthropic 的 Claude 3.7 Sonnet、DeepSeek v3-0324、Claude 3.5 Sonnet、DeepSeek v3 和 Qwen Max-0125 是表现最佳的模型之一。尽管承认当前数据集的范围仅限于这两个应用程序,研究人员旨在通过开放联盟扩展生态系统,预计更多数据将带来更稳健和精确的排行榜。
LLM 的激增使得企业选择用于评估的模型变得越来越具有挑战性。像 Inclusion Arena 这样的排行榜为技术决策者提供了宝贵的指导,突出了在实际使用场景中表现出卓越性能的模型。虽然内部评估对于确保 LLM 在特定应用程序中的有效性始终至关重要,但这些真实世界的基准提供了更清晰的整体竞争格局,帮助组织识别真正符合其运营需求的模型。