RAG ist tot: Kontext-Engineering regiert in KI-Systemen
Die sich schnell entwickelnde Landschaft der künstlichen Intelligenz erlebt einen bedeutenden Paradigmenwechsel, wie Jeff Huber, CEO von Chroma, in einem kürzlichen Latent.Space-Interview mit dem Titel „RAG ist tot, Kontext-Engineering ist König“ ankündigte. Diese kühne Erklärung signalisiert eine Abkehr von der einfachen Retrieval Augmented Generation (RAG) hin zu einem ausgefeilteren Ansatz zur Verwaltung der Informationen, die KI-Systeme speisen. Die Diskussion beleuchtet, was 2025 in Vektordatenbanken wirklich zählt, die einzigartigen Anforderungen der modernen KI-Suche und Strategien zum Aufbau widerstandsfähiger Systeme, die sich anpassen, wenn ihr Kontextverständnis wächst.
Für ein allgemeines Publikum entwickelte sich Retrieval Augmented Generation (RAG) zu einer entscheidenden Technik zur Verbesserung großer Sprachmodelle (LLMs). Traditionelle LLMs, die auf riesigen, aber statischen Datensätzen trainiert wurden, haben oft Schwierigkeiten, aktuelle, domänenspezifische oder genaue Informationen bereitzustellen, manchmal sogar Fakten zu „halluzinieren“. RAG begegnete diesem Problem, indem es LLMs ermöglichte, zuerst relevante Informationen aus externen Wissensbasen – wie Dokumenten, Datenbanken oder dem Web – abzurufen und diese frischen Daten dann zur Ergänzung ihrer Antworten zu verwenden. Dieser Prozess zielte darauf ab, Ungenauigkeiten und die Notwendigkeit ständiger Modellneuschulungen zu reduzieren, wodurch LLMs Quellen zitieren und fundiertere Antworten geben konnten.
Doch mit der Reifung von KI-Anwendungen von einfachen Chatbots zu komplexen, mehrstufigen Agenten sind die Grenzen von RAG offensichtlich geworden. Obwohl RAG die Genauigkeit verbesserte, war es kein Allheilmittel gegen Halluzinationen, da LLMs abgerufene Informationen immer noch falsch interpretieren oder irreführend kombinieren konnten. Darüber hinaus standen RAG-Systeme vor Herausforderungen bei der Unterscheidung subtiler Unterschiede in großen Datensätzen, der Handhabung ambiger Bedeutungen und, entscheidend, beim Betrieb innerhalb der festen „Kontextfenster“-Beschränkungen von LLMs. Jeff Huber stellt fest, dass das bloße Einfüllen weiterer Daten in das Kontextfenster eines LLM dessen Schlussfolgerungsfähigkeiten und die Fähigkeit, relevante Informationen zu finden, tatsächlich beeinträchtigen kann – ein Phänomen, das Chromas Forschung als „Kontextfäule“ bezeichnet.
Hier tritt das „Kontext-Engineering“ in den Mittelpunkt. Im Gegensatz zum „Prompt Engineering“, das sich auf die Erstellung der perfekten einzelnen Anweisung für ein KI-Modell konzentriert, ist Kontext-Engineering die systematische Disziplin des Entwerfens und Verwaltens aller Informationen, die ein KI-Modell sieht, bevor es eine Antwort generiert. Es umfasst das Zusammenstellen von Systemanweisungen, Konversationshistorie, Benutzerpräferenzen, dynamisch abgerufenen externen Dokumenten und sogar verfügbaren Tools. Huber argumentiert, dass der Erfolg oder Misserfolg heutiger fortgeschrittener KI-Agenten zunehmend von der Qualität ihres Kontexts abhängt, wodurch die meisten Agentenfehler „Kontextfehler“ und nicht inhärente Modellmängel sind. Das Ziel des Kontext-Engineerings ist präzise: relevante Informationen für das LLM zu finden, zu entfernen und zu optimieren, um sicherzustellen, dass es genau das erhält, was es braucht, wenn es es braucht. Dies beinhaltet einen zweistufigen Prozess des „Sammelns“ (Maximierung des Recalls durch ein weites Netz für alle möglichen relevanten Informationen) und des „Auszugs“ (Maximierung der Präzision durch Re-Ranking und Entfernen irrelevanter Daten).
Im Mittelpunkt der modernen KI-Suche und des Kontext-Engineerings stehen Vektordatenbanken. Diese spezialisierten Datenbanken speichern und indizieren numerische Darstellungen oder „Embeddings“ von unstrukturierten Daten wie Text, Bildern und Audio. Im Gegensatz zu traditionellen Datenbanken, die auf exakten Übereinstimmungen beruhen, ermöglichen Vektordatenbanken hocheffiziente „Ähnlichkeitssuchen“, wodurch KI-Systeme Bedeutung und Kontext verstehen können. Chroma, mitbegründet von Jeff Huber, ist eine führende Open-Source-Vektordatenbank, die speziell für KI-Anwendungen entwickelt wurde. Huber betont Chromas Engagement, die Entwicklererfahrung zu vereinfachen und skalierbare, nativ verteilte Lösungen bereitzustellen, die das „operative Höllenleben“ überwinden, das oft mit der Skalierung von Single-Node-Vektordatenbanken verbunden ist.
Der Wandel von „RAG ist tot“ zu „Kontext-Engineering ist König“ bedeutet eine Reifung in der KI-Entwicklung. Er erkennt an, dass das bloße Abrufen von Daten nicht ausreicht; die Intelligenz liegt darin, wie diese Daten kuratiert, strukturiert und der KI präsentiert werden. Die moderne Suche für KI geht nicht mehr nur darum, Schlüsselwörter zu finden, sondern nuancierte Absichten und Kontexte zu verstehen – eine Fähigkeit, die durch das ausgefeilte Zusammenspiel von Vektordatenbanken und Kontext-Engineering-Prinzipien ermöglicht wird. Da KI-Systeme zunehmend integraler Bestandteil komplexer Arbeitsabläufe werden, wird die Fähigkeit, Systeme zu liefern, die nicht „verrotten“, wenn der Kontext wächst – durch Respektierung der Kontextfenstergrenzen, den Einsatz hybriden Retrievals und strenges Re-Ranking – die nächste Generation robuster, zuverlässiger KI definieren.