优化代理式AI:实现速度与准确性的“银弹”工作流
有效部署AI代理通常面临一个悖论:在一个项目中表现出色的方法,在下一个项目中可能完全失效或变得极其昂贵。挑战在于实际应用固有的可变性;一个预先存在的工作流可能缺乏必要的上下文长度,需要更深层次的推理,或者根本无法满足新的延迟要求。即使一个旧的设置看起来功能正常,它也可能因为过度设计而导致新问题成本过高,这表明更简单、更快速的配置可能才是真正所需的。
这一常见障碍促使DataRobot的研究人员调查了一个基本问题:是否存在能够始终在广泛用例中表现良好的AI代理式工作流,从而让开发者能够根据其优先事项进行选择并加速部署?他们的发现给出了一个响亮的“是”,这些多功能配置被誉为“银弹”。
这些“银弹”工作流针对低延迟和高准确性目标被识别出来,展现出卓越的一致性。在早期优化阶段,它们持续优于传统的迁移学习方法和随机种子,同时避免了使用syftr平台进行全面、详尽优化运行所产生的巨额计算成本。至关重要的是,这些“银弹”恢复了通过完整syftr优化所实现性能的约75%,但成本仅为一小部分,这使它们成为一个极快的起点,同时不排除进一步精细调整改进的潜力。
理解帕累托前沿的概念是掌握这些“银弹”如何被发现的关键。想象一下绘制各种AI代理配置的性能图,其中一个轴代表准确性,另一个轴代表延迟。帕累托前沿是最佳配置的集合,在此集合中,不可能在不同时恶化另一个指标的情况下改进一个指标。例如,您可能会选择一个优先考虑低延迟而非绝对最大准确性的配置,但您绝不会选择一个“被支配”的工作流,因为前沿上总是存在一个更优的选项。
在整个实验过程中,DataRobot利用了syftr,这是一个多目标优化平台,旨在优化代理式工作流的准确性和延迟。Syftr通过两种核心技术自动化探索针对既定目标的众多工作流配置:用于高效导航广阔搜索空间的多目标贝叶斯优化,以及智能地提前停止对可能次优工作流评估的ParetoPruner,从而节省时间和计算资源,同时仍能找出最有效的配置。
该研究涉及一个多阶段过程。最初,syftr在四个不同的训练数据集上运行了数百次优化试验:CRAG Task 3 Music、FinanceBench、HotpotQA和MultihopRAG。对于每个数据集,syftr识别出帕累托最优工作流,精确找出最佳的准确性-延迟权衡。接下来的关键步骤是识别“银弹”本身。这是通过对所有训练数据集的结果进行归一化,然后将相同的工作流分组以计算其平均准确性和延迟来实现的。从这个平均数据集中,选择了构成整体帕累托前沿的工作流,从而产生了23种独特的“银弹”配置,这些配置在整个训练集中表现始终良好。
为了验证其有效性,这些“银弹”随后与另外两种种子策略进行了测试:迁移学习和随机抽样。在这种情况下,迁移学习涉及从历史研究中选择高性能工作流,并在新的、未见过的数据集上进行评估。为了公平比较,每种种子策略都限制为23个初始工作流,与识别出的“银弹”数量相匹配。
最终评估阶段涉及在四个新的、保留的测试数据集上运行大约1,000次优化试验:Bright Biology、DRDocs、InfiniteBench和PhantomWiki。一个复杂的AI模型GPT-4o-mini充当评审员,根据真实答案验证代理的响应。
结果 unequivocal 地证明了“银弹”种子法的即时优势。在初始种子试验完成后,“银弹”在测试数据集中始终提供卓越的性能。平均而言,它们实现了高9%的最大准确性、低84%的最小延迟,以及比其他策略大28%的帕累托面积。例如,在DRDocs数据集上,经过种子处理后,“银弹”达到了88%的帕累托面积,显著优于迁移学习的71%和随机抽样的62%。同样,在InfiniteBench上,其他方法需要大约100次额外的试验才能接近“银弹”实现的帕累托面积,并且仍然难以匹配通过“银弹”方法找到的最快工作流。
进一步分析显示,平均而言,即使在1,000次优化试验后,23个“银弹”工作流仍占最终帕累托面积的约75%。虽然性能恢复因数据集而异——Bright Biology高达92%,而PhantomWiki仅为46%——但总体趋势是清晰的。
总之,用这些“银弹”对AI代理优化进行种子处理,能够提供持续强劲的结果,甚至超越更复杂的迁移学习方法。虽然完整的优化运行最终会收敛到真正的最优工作流,但“银弹”提供了一种高效且经济的方式来快速近似该性能。它们作为卓越的起点,显著减少了查找高性能代理式工作流所需的时间和成本,并且随着更广泛的训练数据和更长的优化运行,其影响潜力可能进一步增长。