Databricks:评估代理式AI,行为才是硬道理,数据仅是辅助
在过去的五年里,人工智能模型在数据处理和推理能力方面的快速进步,推动了企业和工业开发者不懈的追求:构建更大规模的模型,并争取更具雄心的基准测试。现在,随着代理式AI成为生成式AI的预期继任者,对更智能、更细致的AI代理的需求正在不断升级。然而,矛盾的是,衡量AI智能的主流标准却常常过于简单,仅仅与其模型大小或训练数据的纯粹数量挂钩。
数据分析和AI公司Databricks认为,当前的AI军备竞赛从根本上忽略了一个关键点。在生产环境中,衡量AI真正价值的标准并非其抽象意义上的“知道”了什么,而是当利益相关者依赖它时,它能多么有效地执行。Databricks首席AI科学家Jonathan Frankle强调,对AI模型真正信任和可观的投资回报直接来源于它们在实际生产环境中的行为表现,而非它们可能包含的纯粹信息量。
与传统软件不同,后者通过确定性规则产生可预测的输出;AI模型则生成概率性结果。这种固有的特性从根本上改变了它们必须被评估的方式。“你唯一能衡量一个AI系统的是它的行为。你无法深入其内部。没有等同于源代码的东西,”Frankle解释道。他认为,虽然公共基准测试提供了通用能力的有用快照,但企业常常过度依赖这些宽泛的指标,将其误认为是实际应用能力的指示器。
Frankle断言,真正重要的是针对业务特定数据进行严格、持续的评估。这种精确的评估对于衡量输出质量、改进模型行为以及有效指导强化学习策略至关重要,这些策略能让AI随着时间推移而改进。他批评了一种常见的、非正式的AI部署方法:“如今,人们常常通过编写一个提示,尝试几次输入,检查一下感觉,然后就部署代理。这在软件开发中我们绝不会这样做——在AI中我们也不应该这样做。”他认为,这种随意的方法是性能不可靠的根源,也是阻碍AI充分发挥潜力的障碍。
最终,Databricks所倡导的这种焦点转变代表着AI行业的成熟。它超越了原始计算能力和数据量的诱惑,转向了一种更务实、以性能为导向的方法,即AI的真正智能通过其在复杂现实操作环境中的可靠、有益行动来证明。