LangSmith: LLM-Bewertung menschlich ausrichten mit Align Evals

Langchain

In der sich entwickelnden Landschaft der Anwendungsentwicklung für große Sprachmodelle (LLM) ist eine genaue und zuverlässige Bewertung von größter Bedeutung. Entwickler iterieren häufig an ihren Anwendungen, verfeinern Prompts, aktualisieren die Logik oder ändern die Architektur. Bewertungen dienen als kritisches Werkzeug, um Ausgaben zu bewerten und die Auswirkungen dieser Änderungen zu messen. Eine jedoch von Entwicklungsteams hervorgehobene hartnäckige Herausforderung ist eine bemerkenswerte Diskrepanz zwischen automatisierten Bewertungsergebnissen und menschlichem Urteilsvermögen. Diese Diskrepanz kann zu unzuverlässigen Vergleichen und fehlgeleiteten Entwicklungsbemühungen führen.

Um dieses Problem zu adressieren, hat LangSmith Align Evals eingeführt, eine neue Funktion, die entwickelt wurde, um LLM-als-Richter-Evaluatoren besser auf menschliche Präferenzen abzustimmen. Diese Innovation schöpft Inspiration aus Erkenntnissen zum Aufbau effektiver LLM-basierter Bewertungssysteme. Align Evals ist derzeit für alle LangSmith Cloud-Benutzer verfügbar, eine selbst gehostete Version soll noch diese Woche veröffentlicht werden.

Traditionell war die Verfeinerung von LLM-als-Richter-Evaluatoren oft mit einem gewissen Grad an Rätselraten verbunden. Das Erkennen von Mustern oder Inkonsistenzen im Verhalten eines Evaluators und das genaue Verständnis, warum sich Bewertungen nach Prompt-Modifikationen ändern, war eine komplexe Aufgabe. Die neue LLM-als-Richter-Ausrichtungsfunktion zielt darauf ab, diesen Prozess zu optimieren, indem sie Entwicklern verbesserte Tools für Iteration und Analyse zur Verfügung stellt.

Zu den Hauptfunktionen von Align Evals gehören:

  • Interaktive Prompt-Iteration: Eine spielplatzähnliche Oberfläche ermöglicht es Entwicklern, ihre Evaluator-Prompts zu verfeinern und sofort einen “Ausrichtungswert” anzuzeigen, der angibt, wie genau die Bewertungen des LLM mit menschlichen Benchmarks übereinstimmen.

  • Side-by-Side-Vergleich: Die Funktion ermöglicht einen direkten Vergleich zwischen von Menschen bewerteten Daten und LLM-generierten Bewertungen. Diese Ansicht kann sortiert werden, um schnell “unausgerichtete” Fälle zu identifizieren, bei denen das Urteil des LLM erheblich von menschlichen Erwartungen abweicht.

  • Baseline-Verfolgung: Entwickler können einen Baseline-Ausrichtungswert speichern, was einen klaren Vergleich zwischen ihren neuesten Prompt-Änderungen und früheren Versionen erleichtert.

Der Ausrichtungsprozess innerhalb von Align Evals folgt einem strukturierten Vier-Schritte-Workflow:

  1. Evaluierungskriterien definieren: Der erste Schritt besteht darin, präzise Evaluierungskriterien festzulegen, die die gewünschte Leistung der Anwendung widerspiegeln. In einer Chat-Anwendung könnten Kriterien beispielsweise Korrektheit und Prägnanz umfassen, wobei anerkannt wird, dass eine technisch genaue, aber übermäßig wortreiche Antwort für Benutzer dennoch unbefriedigend sein kann.

  2. Menschliche Überprüfungsdaten kuratieren: Entwickler wählen eine repräsentative Reihe von Beispielen aus den Ausgaben ihrer Anwendung zur menschlichen Überprüfung aus. Dieser Datensatz sollte eine Reihe von Szenarien umfassen, einschließlich sowohl hochwertiger als auch suboptimaler Antworten, um das Spektrum der möglichen Ausgaben der Anwendung angemessen abzudecken.

  3. Golden-Set-Bewertungen festlegen: Für jedes definierte Evaluierungskriterium weisen menschliche Prüfer den kuratierten Beispielen manuell Bewertungen zu. Diese von Menschen zugewiesenen Bewertungen bilden ein “Golden Set”, das als Benchmark dient, an dem die Leistung des LLM-Evaluators gemessen wird.

  4. Evaluator-Prompt iterieren und ausrichten: Ein initialer Prompt wird für den LLM-Evaluator erstellt. Dieser Prompt wird dann anhand der von Menschen bewerteten Beispiele getestet. Die Ausrichtungsergebnisse liefern Feedback, das einen iterativen Verfeinerungsprozess leitet. Wenn der LLM beispielsweise bestimmte Antworten durchweg zu hoch bewertet, kann der Prompt angepasst werden, um klarere negative Kriterien aufzunehmen. Dieser iterative Ansatz ist entscheidend für die Verbesserung des Ausrichtungswerts des Evaluators.

Mit Blick auf die Zukunft plant LangSmith, die Bewertungsfähigkeiten weiter zu verbessern. Zukünftige Entwicklungen werden voraussichtlich Analysetools zur Verfolgung der Evaluatorleistung über die Zeit umfassen, die tiefere Einblicke in deren Entwicklung bieten. Darüber hinaus zielt die Plattform darauf ab, eine automatische Prompt-Optimierung einzuführen, bei der das System Prompt-Variationen generieren kann, um die Ausrichtung weiter zu verbessern.