Databricks stellt PGRM vor: Hybrides KI-Modell für skalierbare Überwachung

Databricks

Da künstliche Intelligenz zunehmend in Geschäftsabläufe integriert wird, stellt die Gewährleistung, dass diese Systeme hilfreich, sicher und auf spezifische Anforderungen abgestimmt sind, eine erhebliche Herausforderung dar, insbesondere bei der Skalierung. Traditionelle Überwachungsmethoden wie manuelle Überprüfungen sind langsam und kostspielig, während bestehende Überwachungstools oft starr, ineffizient oder undurchsichtig sind. Die Branche sucht seit langem nach einer zuverlässigen, anpassungsfähigen und transparenten Lösung zur Bewertung und Steuerung des KI-Verhaltens, ohne tiefgreifendes Fachwissen zu erfordern.

Databricks begegnet diesem kritischen Bedarf mit seinem neuen Prompt-Guided Reward Model (PGRM). Stellen Sie sich PGRM als einen KI-Qualitätskontrollinspektor vor, der in der Lage ist, sich sofort an neue Regeln anzupassen, unsichere Fälle zur menschlichen Überprüfung zu kennzeichnen und klare, vertrauenswürdige Bewertungen für jede Entscheidung zu liefern. Es bietet die Flexibilität eines großen Sprachmodells (LLM), das als Richter fungiert, kombiniert mit der Effizienz und präzisen Kalibrierung eines speziell entwickelten Klassifikators. Ob das Ziel die Durchsetzung von Sicherheitsrichtlinien, die Sicherstellung der Faktenrichtigkeit oder die Ausrichtung von KI-Ausgaben an spezifischen Markenstandards ist, PGRM verspricht, eine groß angelegte, transparente Überwachung realisierbar zu machen.

Der Einfluss von PGRM auf die KI-Entwicklung und -Bereitstellung ist vielschichtig. Es ermöglicht Organisationen, ihre LLM-Schutzmechanismen und Bewertungsprozesse mithilfe eines einzigen, anpassbaren Prompts zu vereinheitlichen, wodurch Experten ihre Bemühungen dort konzentrieren können, wo sie am dringendsten benötigt werden. Entscheidend ist, dass es die Weiterentwicklung von Überwachungsmechanismen bei sich ändernden Geschäftsanforderungen erleichtert und die Notwendigkeit kostspieliger Neu-Trainings von Grund auf eliminiert. Über die grundlegende Überwachung hinaus unterstützt PGRM auch fortschrittliche Belohnungsmodellierungs-Workflows, indem es automatisch die effektivsten KI-Antworten identifiziert, die Modellfeinabstimmung durch Reinforcement Learning erleichtert und eine kontinuierliche Verbesserung mit erheblich reduziertem manuellem Aufwand vorantreibt.

Die internen Benchmarks von Databricks unterstreichen die doppelte Stärke von PGRM. Als LLM-Richter erreicht es eine durchschnittliche Genauigkeit von 83,3 % bei der Bewertung der Urteilsqualität und entspricht damit eng der Leistung führender Frontier-Modelle wie GPT-4o (83,6 %) bei wichtigen Bewertungsaufgaben wie der Antwortkorrektheit und der Kontexttreue. Darüber hinaus belegt PGRM auf RewardBench2, einem anspruchsvollen neuen öffentlichen Benchmark für Belohnungsmodellierung, den zweiten Platz als sequenzieller Klassifikator und den vierten Platz insgesamt mit einem Score von 80,0. Diese Leistung übertrifft die meisten dedizierten Belohnungsmodelle und übertrifft sogar fortschrittliche LLMs wie GPT-4o (64,9) und Claude 4 Opus (76,5) bei der feingranularen Belohnungsbewertung. Dies macht PGRM zu einem wegweisenden Modell, das sowohl bei der instruierbaren Beurteilung als auch bei der hochpräzisen Belohnungsmodellierung modernste Ergebnisse liefert, ohne die Effizienz zu beeinträchtigen.

Die Entwicklung von PGRM beruht auf der Erkenntnis, dass Beurteilung und Belohnungsmodellierung, obwohl oft getrennt behandelt, im Grunde zwei Seiten derselben Medaille sind. Die gebräuchlichste automatisierte Lösung für die KI-Überwachung besteht darin, ein LLM anzuweisen, zu “beurteilen”, ob ein KI-System sich gemäß den Richtlinien in natürlicher Sprache angemessen verhalten hat. Obwohl LLM-Richter hochgradig anpassungsfähig sind – sie ermöglichen die Definition von Kriterien wie “sicher”, “wahrheitsgemäß” oder “markenkonform” durch einfache Regeln –, sind sie teuer und notorisch unzuverlässig bei der Einschätzung ihrer eigenen Urteilssicherheit.

Umgekehrt sind Belohnungsmodelle (RMs) spezialisierte Klassifikatoren, die darauf trainiert sind, menschliche Bewertungen von KI-Antworten vorherzusagen. Sie sind effizient und skalierbar, was sie ideal für die Ausrichtung von Basismodellen an menschlichen Präferenzen in Techniken wie Reinforcement Learning aus menschlichem Feedback (RLHF) oder für die Auswahl der besten Antwort aus mehreren KI-generierten Optionen macht. Im Gegensatz zu LLM-Richtern sind RMs kalibriert, was bedeutet, dass sie ihre Sicherheit bezüglich einer Vorhersage genau vermitteln können. Herkömmliche RMs sind jedoch typischerweise auf einen festen Satz von Kriterien abgestimmt, was ein kostspieliges Neu-Training erfordert, wann immer sich die Definition von „gut“ ändert, wodurch ihre Verwendung in dynamischen Bewertungs- oder Überwachungsszenarien eingeschränkt wird.

PGRM schließt diese kritische Lücke, indem es die Instruierbarkeit eines LLM-Richters innerhalb des Rahmens eines Belohnungsmodells verpackt. Das Ergebnis ist ein Hybrid, der die Geschwindigkeit und Kalibrierung eines RM mit der Flexibilität eines LLM-Richters kombiniert. Dieser innovative Ansatz bedeutet, dass PGRM instruierbar ist (natürliche Sprachbefehle zur Bewertung zulässt), skalierbar (den Rechenaufwand von LLMs vermeidet) und kalibriert (das Vertrauen in seine Urteile genau vermittelt). Diese einzigartige Kombination bietet eine beispiellose Kontrolle und Interpretierbarkeit bei der KI-Bewertung.

Die praktischen Anwendungen von PGRM sind umfangreich und versprechen, den Lebenszyklus der KI-Entwicklung neu zu gestalten. Es vereinfacht die Überwachung, indem es die Verwaltung von Schutzmechanismen und Richtern mit einem einzigen, abstimmbaren Prompt ermöglicht, wodurch die KI-Ausrichtung an sich entwickelnden Geschäftsregeln gewährleistet wird. Seine kalibrierten Konfidenzwerte ermöglichen eine gezielte Qualitätssichtung, helfen dabei, mehrdeutige Fälle zu identifizieren, die Expertenaufmerksamkeit erfordern, wodurch der vergeudete Überprüfungsaufwand reduziert und die Kuratierung hochwertiger Datensätze beschleunigt wird. Darüber hinaus erleichtert PGRM die Ausrichtung von Fachexperten, indem es Organisationen ermöglicht, leicht einzustellen, was eine “gute” oder “schlechte” Antwort darstellt, wodurch sichergestellt wird, dass automatisierte Urteile mit internen Standards übereinstimmen. Schließlich können seine Belohnungsmodellierungsfähigkeiten während des Reinforcement-Learning-Feintunings automatisch optimale KI-Antworten aufdecken und fördern, wodurch kontinuierliche, gezielte Verbesserungen in Qualität, Sicherheit und Ausrichtung vorangetrieben werden.

Databricks integriert PGRM bereits in seine Forschung und Produkte, indem es es beispielsweise als Belohnungsmodell für das Fine-Tuning innerhalb bestimmter benutzerdefinierter LLM-Angebote nutzt. Dies ermöglicht die Erstellung hochwertiger, aufgabenoptimierter Modelle auch ohne umfangreiche beschriftete Daten. Das Unternehmen betrachtet PGRM als nur den ersten Schritt in einer breiteren Forschungsagenda, die sich auf steuerbare Belohnungsmodellierung konzentriert. Zukünftige Richtungen umfassen das Lehren von PGRM, um feingranulare, tokenbasierte Beurteilungen für verbesserte Inferenzzeit-Schutzmechanismen und wertgesteuerte Suche durchzuführen, sowie die Erforschung neuartiger Architekturen, die Argumentation mit kalibrierter Beurteilung kombinieren.