RAG已死：AI系统中的“上下文工程”才是王道

人工智能的快速发展正在见证一场重大的范式转变，正如Chroma首席执行官杰夫·休伯在最近一次Latent.Space采访中宣布的那样，该采访题为“RAG已死，上下文工程为王”。这一大胆宣言标志着AI系统不再仅仅停留在简单的检索增强生成（RAG），而是转向一种更复杂的管理信息的方法。讨论强调了2025年向量数据库的真正重要性、现代AI搜索的独特需求，以及如何构建弹性系统以随着上下文理解的增长而适应发展。

对于普通读者而言，检索增强生成（RAG）作为一种关键技术出现，旨在增强大型语言模型（LLM）。传统的LLM在庞大但静态的数据集上进行训练，在提供最新、特定领域或准确信息方面常常力不从心，有时甚至会“幻觉”出事实。RAG通过使LLM首先从外部知识库（如文档、数据库或网络）检索相关信息，然后利用这些新数据来增强其响应，从而解决了这个问题。这一过程旨在减少不准确性并降低持续模型再训练的需求，使LLM能够引用来源并提供更扎实的答案。

然而，随着AI应用从简单的聊天机器人发展到复杂的、多轮次的智能体，RAG的局限性变得显而易见。虽然RAG提高了准确性，但它并非对抗幻觉的灵丹妙药，因为LLM仍然可能以误导性的方式错误解释或组合检索到的信息。此外，RAG系统在区分大数据集中细微差异、处理歧义含义以及关键地在LLM固定的“上下文窗口”限制内操作方面面临挑战。杰夫·休伯指出，简单地将更多数据塞入LLM的上下文窗口实际上会降低其推理能力和查找相关信息的能力，Chroma的研究将这种现象称为“上下文腐烂”。

这就是“上下文工程”占据中心舞台的地方。与“提示工程”专注于为AI模型精心设计单一完美指令不同，上下文工程是一门系统的学科，旨在设计和管理AI模型在生成响应之前所看到的“所有”信息。它包括汇集系统指令、对话历史、用户偏好、动态检索的外部文档，甚至可用的工具。休伯认为，当今高级AI智能体的成功或失败越来越取决于其上下文的质量，使得大多数智能体失败是“上下文失败”，而非固有的模型缺陷。上下文工程的目标是精确的：为LLM找到、移除和优化相关信息，确保它在需要时准确接收所需内容。这涉及一个两阶段过程：“收集”（通过广撒网以最大化召回所有可能的 F 相关信息）和“筛选”（通过重新排序和移除不相关数据以最大化精确度）。

现代AI搜索和上下文工程的核心是向量数据库。这些专门的数据库存储和索引非结构化数据（如文本、图像和音频）的数值表示或“嵌入”。与依赖精确匹配的传统数据库不同，向量数据库能够实现高效的“相似性搜索”，从而使AI系统能够理解含义和上下文。Chroma由杰夫·休伯共同创立，是为AI应用专门构建的领先开源向量数据库。休伯强调Chroma致力于简化开发者体验，并提供可扩展的、原生分布式解决方案，以克服通常与扩展单节点向量数据库相关的“操作地狱”。

从“RAG已死”到“上下文工程为王”的转变标志着AI开发的成熟。它承认仅仅检索数据是不够的；智能在于如何策划、构建和呈现这些数据给AI。现代AI搜索不再仅仅是查找关键词，而是理解细微的意图和上下文，这一能力得益于向量数据库和上下文工程原则的复杂相互作用。随着AI系统日益成为复杂工作流程不可或缺的一部分，在上下文增长时，通过尊重上下文窗口限制、采用混合检索和严格重排序来交付不会“腐烂”的系统，将定义下一代强大的、可靠的AI。

RAG已死：AI系统中的“上下文工程”才是王道

相关文章

住房与生产力：澳大利亚如何通过五大举措建设更优质居所？

LLM“思维链”：脆弱的模式匹配，而非真正推理

AI机器人模拟社交媒体：两极分化不可避免