优化智能体工作流:延迟降低3-5倍,成本不增加

Hackernoon

自主AI智能体编排复杂多步骤任务的承诺,常让人感觉像一项技术奇迹。这些“智能体工作流”中,自我导向的AI智能体在预定义框架内规划自己的路径,提供了前所未有的灵活性。然而,当面对执行缓慢、计算成本高昂以及相互依赖组件构成的迷宫等严酷现实时,最初的魅力可能迅速消退。早期实现已经显示出显著的延迟,简单的客户查询需要几十秒,并产生高昂的每次请求费用。幸运的是,最近的进展和完善的方法正在使开发者能够大幅加速这些系统,并降低其运营开销,同时不损害其固有的适应性。

优化智能体工作流的一个基本原则是精简步骤数量。每一次对大语言模型(LLM)的调用都会引入延迟,并增加超时或“幻觉”(AI生成不正确或不相关信息的情况)的风险。这里的设计理念很简单:将相关步骤合并到单个提示中,避免单个模型可以处理的不必要的微决策,并最大限度地减少LLM的往返次数。有效的工作流设计通常始于最简单的配置,甚至可能是一个智能体,然后仅当评估指标表明需要更复杂性时才通过分解部分进行迭代。这种迭代优化会持续到收益递减点,就像识别数据聚类中的“肘部”一样,确保复杂性和性能之间的最佳平衡。

除了最小化单个步骤外,另一个显著的瓶颈通常来自顺序处理。并行化任何没有依赖关系的任务可以显著缩短执行时间。如果工作流中的两个不同任务不需要彼此的输出,它们可以并发运行。例如,在客户支持场景中,同时检索订单状态和分析客户情绪可以节省总处理时间,因为这些操作彼此独立,即使它们的结果稍后会结合起来形成响应。

至关重要的是,必须消除不必要的模型调用。虽然LLM功能极其多样,但它们并非总是每个子任务的最佳工具。依赖LLM进行简单算术、基于规则的逻辑或正则表达式匹配是低效的。如果一个简单的函数或预定义规则可以完成任务,绕过LLM调用将立即减少延迟、降低词元成本并提高可靠性。

此外,将模型与任务匹配对于效率至关重要。现代LLM有各种大小和专业的“口味”。为简单的分类或实体提取任务部署最大、最强大的模型,就好比使用超级计算机进行基本算术。更大的模型需要更多的计算资源,直接导致更高的延迟和更高的费用。更具战略性的方法是,对于分解后的任务,从更小、更高效的模型(例如8B参数模型)开始。只有当任务对初始模型来说过于复杂时,才应考虑更大的替代方案。行业洞察也表明,某些LLM架构在特定类型的任务上表现更好,这一考虑应指导模型选择。

提示设计在性能中也起着关键作用。虽然在评估期间向LLM的提示添加护栏是常见做法,但这可能会无意中增加提示大小并影响延迟。提示缓存等策略,用于静态指令和模式,结合在末尾附加动态上下文以更好地重用缓存,可以显著减少往返响应时间。设置明确的响应长度限制还可以防止模型生成不必要的信息,从而节省时间和词元。

除了提示优化之外,缓存所有适用内容可以带来显著的收益。这不仅限于最终答案;中间结果和昂贵的工具调用也应缓存。为部分注意力状态和会话特定数据(例如客户资料或传感器状态)实现键值(KV)缓存,可以将重复工作的延迟削减40-70%。

对于高级实现者,推测解码提供了另一种提高速度的途径。这项技术涉及使用一个更小、更快的“草稿”模型来快速预测下一个词元,然后由一个更大、更准确的模型并行验证或纠正这些词元。许多领先的基础设施提供商在幕后采用此方法来提供更快的推理。

最后,战略性微调,虽然常被新的LLM采用者忽视,但可以是一种强大的优化。将LLM微调到特定领域或任务可以大大减少推理期间所需的提示长度。这是因为通常包含在提示中的大部分内容通过微调过程“烘焙”到模型的权重中,从而导致更小的提示,并因此降低延迟。然而,微调通常应保留作为后期优化。

支撑所有这些策略的是不懈监控的关键实践。如果没有强大的指标——例如首个词元生成时间(TTFT)、每秒词元数(TPS)、路由准确性、缓存命中率和多智能体协调时间——优化工作将是盲目的。这些指标提供了识别瓶颈和验证已实施更改有效性所需的清晰度。

最快、最可靠的智能体工作流并非偶然。它们是无情地削减步骤、智能并行化、确定性代码、明智的模型选择和普遍缓存的蓄意结果。通过实施这些策略并仔细评估结果,组织可以在其AI驱动的操作中实现3-5倍的速度提升并实现可观的成本节约。