Agentic RAG:生成式AI实现精准与信任的下一个飞跃
一家主要航空公司的基于大型语言模型(LLM)的聊天机器人捏造折扣政策,并迫使该公司兑现,这一事件鲜明地提醒我们,精准和值得信赖的生成式AI系统是多么关键。对于将生成式AI整合到其运营中的开发者而言,此类警示故事已屡见不鲜。随着越来越多的企业将生成模型部署到生产工作流程、决策过程和面向客户的应用程序中,精准性已成为不可或缺的差异化因素。事实上,74%的IT领导者预计生成式AI的采用将持续激增,因此确保准确性至关重要。若无准确性,AI输出可能沦为错误信息、损害品牌的错误,或侵蚀用户信任的决策。高精准度输出对于AI解决方案正确解决问题、带来丰厚投资回报并保持一致的高质量性能至关重要,最终将其转化为长期的竞争优势。
一种以数据为中心的优化方法,用于提高精准度的是检索增强生成(Retrieval-Augmented Generation,简称RAG)。这项技术将LLM的响应建立在最新、相关的知识基础上,使其在特定领域上下文中显著提高准确性。然而,RAG系统在检索、增强和生成阶段并非没有局限性。一个主要问题是当知识库不完整或过时时,模型会用推测性的猜测来填补信息空白。此外,信噪比也可能存在问题;当面对相互冲突或与主题无关的内容时,模型可能难以提取准确信息,导致输出不一致和用户沮丧。长时间的对话也可能超出LLM的上下文窗口,导致上下文漂移和重复,从而在多轮交互中降低输出质量。此外,粗糙的分块和向量限制,特别是对于近似最近邻(aNN)和K最近邻(kNN)等检索机制,可能无法提供全面的视图,并且在处理大型数据集时可能变得嘈杂和缓慢,导致召回率降低、延迟增加和计算成本升高。最后,传统的RAG方法缺乏内置的反馈循环,这意味着它们无法自我检查或迭代其输出,从而使错误在没有健壮的自动化自我改进机制的情况下传播。
为了克服这些挑战,一种更先进的方法——Agentic RAG——正在兴起。虽然重排和领域特定调优等技术可以改进基本的RAG,但Agentic RAG架构通过引入一个或多个配备“判断”机制的专业AI智能体,将静态RAG管道转变为自适应的智能系统。这种设计持续推动更高质量的输出。与传统RAG对查询反应最小适应性不同,Agentic RAG允许LLM从多个数据源和工具中提取信息,提供更大的灵活性和根据上下文动态改变其检索策略的能力。通过采用多智能体协同工作的系统,组织可以构建可扩展的AI解决方案,能够处理各种用户查询。这些智能体旨在迭代过去的结果,随着时间的推移不断提高系统准确性。此外,它们的能力超越了文本,先进的多模态模型使它们能够处理图像、音频和其他数据类型。例如,Anthropic的内部评估显示,一个以Claude Opus 4为主智能体、Claude Sonnet 4为子智能体的多智能体系统,比单一智能体Claude Opus 4的性能高出惊人的90.2%。同样,对RAGentA框架的研究表明,其答案忠实度比标准RAG基线提高了10.72%。RAGentA框架通过混合检索器选择相关文档,然后由一个智能体生成初始答案,另一个过滤问题-文档-答案三元组,第三个生成带有行内引用的最终答案,第四个检查完整性,可选地重新 формулировать查询,并合并响应。
Agentic RAG中常用的一种高效多智能体设计模式是黑板模式。这种模式非常适合解决需要增量解决方案的复杂问题,其中各种智能体通过共享知识库(隐喻地称为“黑板”)异步协作。就像动态数字工作空间中的同事一样,每个智能体都贡献一项特定技能:有些擅长信息检索,有些分析模式,还有一些在传播前验证发现。它们自主且异步地在共享板上发布、完善和重用见解。该过程通常包括一个初始化阶段,其中黑板用初始数据填充,随后是智能体激活,智能体监控黑板并在当前状态匹配时贡献其专业知识。这导致迭代改进,智能体逐步更新黑板直到解决方案出现。例如,在医疗诊断场景中,不同的智能体可能会访问患者和临床数据的不同部分,例如症状、实验室结果和病史。当用户输入症状时,相应的智能体检索相关的诊断可能性并将其发布到共享黑板上。随着诊断的形成,它会广播回所有智能体,创建一个反馈循环,每个智能体从结果中学习并随着时间的推移调整其推理,从而提高未来诊断的精准度。
Agentic RAG通过将静态管道转变为一个由专业“微服务”组成的协作系统,这些微服务能够实时推理、评估和适应,从而显著提升了输出质量和事实准确性。首先,由专门的规划智能体管理的查询规划和分解,其功能类似于微服务架构中的请求路由器。该智能体将复杂查询分解为更小、定义明确的任务,防止模糊或过于宽泛的检索,并确保早期且精准地浮现正确的事实,从而提高RAG管道效率。其次,一种自适应混合检索策略,类似于知识检索的负载均衡器,允许检索智能体选择最佳检索方法——无论是基于术语、基于图、基于向量数据库还是API调用——并根据每个子任务进行定制。第三,由判断智能体处理的证据判断和验证,充当质量门,在信息进入生成阶段之前,对其进行事实相关性和内部一致性评分,有效过滤掉噪音。第四,自我反思性修订涉及一个修订智能体检查整体流程并验证输入查询与答案的相关性。此机制也可以是外部的,并依赖于主智能体的输出。最后,由记忆智能体管理的长期记忆和结构化检索,其功能类似于缓存层,存储来自过去交互的过滤见解和用户偏好,并在必要时利用结构化检索增强提供上下文。然而,为了使这些智能体能够大规模地提供精准性,它们需要持续访问数据、工具以及跨系统共享信息的能力,并且它们的输出随时可供多个服务使用——这一挑战凸显了高级AI部署中固有的复杂基础设施和数据互操作性问题。