Google KI: LLM-Trainingsdaten um das 10.000-fache reduziert

Marktechpost

Google Research hat eine bahnbrechende Methodik vorgestellt, die die für die Feinabstimmung großer Sprachmodelle (LLMs) erforderlichen Daten drastisch um das bis zu 10.000-fache reduziert, während die Modellqualität beibehalten oder sogar verbessert wird. Dieser innovative Ansatz basiert auf aktivem Lernen, das die Experten-Labeling-Bemühungen gezielt auf die informativsten Beispiele konzentriert – insbesondere auf die „Grenzfälle“, bei denen das Modell die größte Unsicherheit aufweist.

Traditionell erforderte die Feinabstimmung von LLMs für Aufgaben, die ein tiefes kontextuelles und kulturelles Verständnis erfordern, wie die Gewährleistung der Sicherheit von Anzeigeninhalten oder die Moderation von benutzergeneriertem Material, riesige, qualitativ hochwertige beschriftete Datensätze. Eine erhebliche Herausforderung besteht darin, dass die meisten Daten harmlos sind; für die Erkennung von Richtlinienverstößen ist nur ein kleiner Bruchteil der Beispiele wirklich relevant, was die Kosten und die Komplexität der Datenkuratierung erhöht. Darüber hinaus haben Standardmethoden Schwierigkeiten, sich schnell anzupassen, wenn sich Richtlinien oder problematische Muster entwickeln, und erfordern oft ein teures und zeitaufwändiges erneutes Training.

Googles Durchbruch löst dieses Problem durch einen iterativen aktiven Lernprozess. Das LLM selbst fungiert als „Scout“, der zunächst einen riesigen Datenkorpus – potenziell Hunderte von Milliarden von Beispielen – scannt, um Instanzen zu identifizieren, bei denen es am unsichersten ist. Anstatt dass menschliche Experten mühsam Tausende zufälliger Beispiele annotieren, werden ihre Bemühungen präzise auf diese grenzwertigen, verwirrenden Elemente ausgerichtet. Dieser Prozess wiederholt sich dann, wobei jede nachfolgende Charge „problematischer“ Beispiele durch die neuesten Verwirrungspunkte des Modells informiert wird. Modelle werden über mehrere Runden feinabgestimmt, und die Iteration wird fortgesetzt, bis die Ausgabe des Modells eng mit dem menschlichen Expertenurteil übereinstimmt, eine Konvergenz, die mit Cohens Kappa gemessen wird, einer statistischen Metrik, die die Übereinstimmung zwischen Annotatoren über den Zufall hinaus bewertet.

Die Auswirkungen dieser Methode sind tiefgreifend. In Experimenten mit den Gemini Nano-1- und Nano-2-Modellen wurde die Übereinstimmung mit menschlichen Experten mit nur 250 bis 450 sorgfältig ausgewählten Beispielen erreicht oder übertroffen, ein starker Kontrast zu den zuvor benötigten ca. 100.000 zufälligen Crowdsourcing-Labels. Dies stellt eine Reduzierung des Datenbedarfs um drei bis vier Größenordnungen dar. Neben der Effizienz wurden auch erhebliche Verbesserungen der Modellqualität erzielt. Für komplexere Aufgaben und größere Modelle erreichten Leistungsverbesserungen 55% bis 65% gegenüber der Baseline, was eine zuverlässigere Einhaltung der Richtlinien demonstriert. Entscheidend ist, dass das Erreichen dieser substanziellen Gewinne mit winzigen Datensätzen stets eine außergewöhnlich hohe Labelqualität erforderte, was durch einen Cohens Kappa-Score von über 0,8 belegt wird.

Dieser Ansatz verschiebt das traditionelle Paradigma des LLM-Trainings grundlegend. Anstatt zu versuchen, Modelle durch Überflutung mit riesigen, oft verrauschten und redundanten Daten zu trainieren, nutzt er intelligent die Fähigkeit des LLM, mehrdeutige Fälle zu identifizieren, und wendet dann die unschätzbare Domänenexpertise menschlicher Annotatoren genau dort an, wo sie am wirkungsvollsten ist. Die Vorteile sind weitreichend: Eine drastische Reduzierung der zu labelnden Beispiele führt direkt zu deutlich geringeren Arbeits- und Kapitalkosten. Die Möglichkeit, Modelle mit nur einer Handvoll neuer Beispiele neu zu trainieren, macht eine schnelle Anpassung an neue Missbrauchsmuster, Richtlinienänderungen oder Domänenänderungen nicht nur machbar, sondern agil. Letztendlich verspricht diese verbesserte Fähigkeit zum kontextuellen und kulturellen Verständnis, die Sicherheit und Zuverlässigkeit automatisierter Systeme, die sensible Inhalte verarbeiten, zu erhöhen und einen greifbaren gesellschaftlichen Einfluss zu bieten.

Im Wesentlichen ermöglicht Googles neue Methodik die LLM-Feinabstimmung für komplexe, sich entwickelnde Aufgaben mit nur Hunderten – statt Hunderttausenden – gezielter, hochqualitativer Labels und läutet damit eine neue Ära der schlankeren, agileren und kostengünstigeren Modellentwicklung ein.