RAG已死:AI系统中的“上下文工程”才是王道

Latent

人工智能的快速发展正在见证一场重大的范式转变,正如Chroma首席执行官杰夫·休伯在最近一次Latent.Space采访中宣布的那样,该采访题为“RAG已死,上下文工程为王”。这一大胆宣言标志着AI系统不再仅仅停留在简单的检索增强生成(RAG),而是转向一种更复杂的管理信息的方法。讨论强调了2025年向量数据库的真正重要性、现代AI搜索的独特需求,以及如何构建弹性系统以随着上下文理解的增长而适应发展。

对于普通读者而言,检索增强生成(RAG)作为一种关键技术出现,旨在增强大型语言模型(LLM)。传统的LLM在庞大但静态的数据集上进行训练,在提供最新、特定领域或准确信息方面常常力不从心,有时甚至会“幻觉”出事实。RAG通过使LLM首先从外部知识库(如文档、数据库或网络)检索相关信息,然后利用这些新数据来增强其响应,从而解决了这个问题。这一过程旨在减少不准确性并降低持续模型再训练的需求,使LLM能够引用来源并提供更扎实的答案。

然而,随着AI应用从简单的聊天机器人发展到复杂的、多轮次的智能体,RAG的局限性变得显而易见。虽然RAG提高了准确性,但它并非对抗幻觉的灵丹妙药,因为LLM仍然可能以误导性的方式错误解释或组合检索到的信息。此外,RAG系统在区分大数据集中细微差异、处理歧义含义以及关键地在LLM固定的“上下文窗口”限制内操作方面面临挑战。杰夫·休伯指出,简单地将更多数据塞入LLM的上下文窗口实际上会降低其推理能力和查找相关信息的能力,Chroma的研究将这种现象称为“上下文腐烂”。

这就是“上下文工程”占据中心舞台的地方。与“提示工程”专注于为AI模型精心设计单一完美指令不同,上下文工程是一门系统的学科,旨在设计和管理AI模型在生成响应之前所看到的“所有”信息。它包括汇集系统指令、对话历史、用户偏好、动态检索的外部文档,甚至可用的工具。休伯认为,当今高级AI智能体的成功或失败越来越取决于其上下文的质量,使得大多数智能体失败是“上下文失败”,而非固有的模型缺陷。上下文工程的目标是精确的:为LLM找到、移除和优化相关信息,确保它在需要时准确接收所需内容。这涉及一个两阶段过程:“收集”(通过广撒网以最大化召回所有可能的 F 相关信息)和“筛选”(通过重新排序和移除不相关数据以最大化精确度)。

现代AI搜索和上下文工程的核心是向量数据库。这些专门的数据库存储和索引非结构化数据(如文本、图像和音频)的数值表示或“嵌入”。与依赖精确匹配的传统数据库不同,向量数据库能够实现高效的“相似性搜索”,从而使AI系统能够理解含义和上下文。Chroma由杰夫·休伯共同创立,是为AI应用专门构建的领先开源向量数据库。休伯强调Chroma致力于简化开发者体验,并提供可扩展的、原生分布式解决方案,以克服通常与扩展单节点向量数据库相关的“操作地狱”。

从“RAG已死”到“上下文工程为王”的转变标志着AI开发的成熟。它承认仅仅检索数据是不够的;智能在于如何策划、构建和呈现这些数据给AI。现代AI搜索不再仅仅是查找关键词,而是理解细微的意图和上下文,这一能力得益于向量数据库和上下文工程原则的复杂相互作用。随着AI系统日益成为复杂工作流程不可或缺的一部分,在上下文增长时,通过尊重上下文窗口限制、采用混合检索和严格重排序来交付不会“腐烂”的系统,将定义下一代强大的、可靠的AI。