Mosaic AI Vector Search: Reranking für schnellere & präzisere RAG-Abrufe

Databricks

Für viele Organisationen, die künstliche Intelligenz-Agenten einsetzen, ist das Haupthindernis nicht die Komplexität des KI-Modells selbst, sondern die Qualität der Informationen, die es erhält. Wenn ein Agent den relevantesten Kontext nicht abrufen kann, können selbst die fortschrittlichsten großen Sprachmodelle kritische Details übersehen, was zu unvollständigen oder ungenauen Antworten führt.

Um dieser Herausforderung zu begegnen, führt Mosaic AI Vector Search eine neue Reranking-Funktion ein, die jetzt in der Public Preview verfügbar ist. Diese Verbesserung verspricht, die Abrufgenauigkeit erheblich zu steigern, indem sie auf internen Unternehmens-Benchmarks eine durchschnittliche Verbesserung von 15 Prozentpunkten durch das einfache Umlegen eines einzigen Parameters demonstriert. Das Ergebnis ist eine deutliche Verbesserung der Antwortqualität, robustere Argumentationsfähigkeiten und eine durchweg bessere Leistung von KI-Agenten, alles ohne zusätzliche Infrastruktur oder komplexe Einrichtung.

Reranking ist eine ausgeklügelte Technik, die darauf abzielt, die Agentenleistung zu steigern, indem sichergestellt wird, dass die relevantesten Daten für eine bestimmte Aufgabe präsentiert werden. Während Vektordatenbanken außergewöhnlich effizient darin sind, schnell Millionen potenzieller Dokumente zu durchsuchen, um weitgehend relevante Kandidaten zu finden, wendet Reranking ein tieferes, nuancierteres Kontextverständnis an. Diese zweite Stufe ordnet die anfänglichen Ergebnisse neu an und bringt die semantisch relevantesten Informationen ganz nach oben. Dieser zweistufige Ansatz – die Kombination aus schnellem initialem Abruf und intelligenter Neuordnung – ist für moderne Retrieval Augmented Generation (RAG)-Agentensysteme, bei denen die Präzision und Qualität der Antworten von größter Bedeutung sind, unverzichtbar geworden.

Die Entscheidung, das Reranking zu integrieren, ergab sich direkt aus dem Kundenfeedback, das zwei wiederkehrende Probleme aufzeigte. Erstens hatten KI-Agenten häufig Schwierigkeiten, kritische Kontexte zu identifizieren, die in riesigen, unstrukturierten Datensätzen verborgen waren. Die wirklich „richtige“ Information gehörte oft nicht zu den Top-Ergebnissen, die von einer Standard-Vektordatenbank zurückgegeben wurden. Zweitens, während einige Organisationen versuchten, ihre eigenen Reranking-Systeme zur Verbesserung der Agentenqualität zu entwickeln, erwiesen sich diese maßgeschneiderten Lösungen als zeitaufwändig in der Entwicklung – oft Wochen – und erforderten einen erheblichen laufenden Wartungsaufwand. Durch die direkte Einbettung des Rerankings in Vector Search können Organisationen nun ihre verwalteten Unternehmensdaten nutzen, um die relevantesten Informationen ohne zusätzlichen Engineering-Overhead zu finden.

Die Auswirkungen dieser Innovation sind bereits offensichtlich. David Brady, Senior Director bei G3 Enterprises, bemerkte eine transformative Veränderung in ihrem Lexi-Chatbot: „Die Reranker-Funktion half, unseren Lexi-Chatbot von der Funktionsweise eines Gymnasiasten zu der Leistung eines Jurastudenten zu erheben. Wir haben transformative Fortschritte darin gesehen, wie unsere Systeme juristische Dokumente verstehen, darüber nachdenken und Inhalte daraus generieren – und Erkenntnisse freisetzen, die zuvor in unstrukturierten Daten verborgen waren.“

Das Forschungsteam von Databricks erzielte diesen Durchbruch durch die Entwicklung eines neuartigen Compound-KI-Systems, das speziell auf Agenten-Workloads zugeschnitten ist. Bei internen Unternehmens-Benchmarks ruft dieses System die richtige Antwort in 89 % der Fälle innerhalb seiner Top-10-Ergebnisse ab (eine Metrik, die als recall@10 bekannt ist). Dies stellt eine substanzielle Verbesserung von 15 Punkten gegenüber dem vorherigen Basiswert von 74 % dar und ist 10 Punkte höher als führende Cloud-Alternativen, die typischerweise 79 % erreichen. Entscheidend ist, dass diese verbesserte Qualität mit bemerkenswerter Geschwindigkeit geliefert wird, mit Latenzen von nur 1,5 Sekunden. Im Gegensatz dazu benötigen viele zeitgenössische Systeme oft mehrere Sekunden oder sogar Minuten, um hochwertige Antworten zurückzugeben. Das System ist optimiert, um 50 Ergebnisse in nur 1,5 Sekunden neu zu ordnen, wodurch sichergestellt wird, dass ausgeklügelte Abrufstrategien die Benutzererfahrung nicht beeinträchtigen.

Die Aktivierung dieser unternehmensweiten Reranking-Funktion ist bemerkenswert einfach und dauert Minuten statt Wochen. Traditionell würden Teams erhebliche Zeit für die Erforschung von Modellen, die Bereitstellung von Infrastruktur und das Schreiben benutzerdefinierter Logik aufwenden. Mit Vector Search erfordert die Aktivierung des Rerankings lediglich das Hinzufügen eines zusätzlichen Parameters zu einer Abfrage, wodurch die Abrufqualität für KI-Agenten sofort verbessert wird. Dies eliminiert die Notwendigkeit, separate Modell-Serving-Endpunkte zu verwalten, benutzerdefinierte Wrapper zu pflegen oder komplexe Konfigurationen zu optimieren. Darüber hinaus können Benutzer mehrere Spalten für das Reranking angeben, wodurch das System Zugriff auf reichhaltige Metadaten über den Haupttext hinaus erhält, wie z. B. Vertragszusammenfassungen oder Kategorieinformationen, um das Kontextverständnis und die Ergebnisrelevanz weiter zu verbessern.

Reranking ist besonders vorteilhaft für jeden RAG-Agenten-Anwendungsfall, bei dem die richtige Antwort innerhalb eines breiteren Satzes von anfänglichen Ergebnissen vorhanden ist, aber Schwierigkeiten hat, unter den ersten wenigen aufzutauchen. Technisch gesehen bedeutet dies, dass Kunden mit niedrigem recall@10, aber hohem recall@50 – bei denen die richtigen Informationen innerhalb der Top-50-Ergebnisse, aber nicht konsistent innerhalb der Top-10, abgerufen werden – wahrscheinlich die signifikantesten Qualitätsgewinne erzielen werden. Diese neue Funktion stellt einen bedeutenden Fortschritt dar, um KI-Agenten genauer, effizienter und letztendlich wertvoller für Unternehmensanwendungen zu machen.