Googles Aktives Lernen: LLM-Daten um 10.000x reduziert

Research

Große Sprachmodelle (LLMs) zeigen großes Potenzial für komplexe Aufgaben wie die Klassifizierung unsicherer Werbeinhalte. Die Identifizierung von Inhalten, die gegen Werberichtlinien verstoßen, erfordert ein tiefes Verständnis von Kontext und kulturellen Nuancen, Bereiche, in denen LLMs traditionelle maschinelle Lernsysteme oft übertreffen. Das Feinabstimmen von LLMs für solch komplexe Herausforderungen erfordert jedoch typischerweise riesige Mengen an hochpräzisen Trainingsdaten, deren Beschaffung sowohl schwierig als auch teuer ist. Diese Herausforderung wird durch „Konzeptdrift“ noch verschärft – die kontinuierliche Entwicklung von Sicherheitsrichtlinien und das Aufkommen neuer Formen unsicherer Inhalte, was oft ein kostspieliges Neuanlernen auf völlig neuen Datensätzen erforderlich macht. Folglich ist die Minimierung der für das Training erforderlichen Daten zu einem kritischen Ziel geworden.

Um dies zu adressieren, hat Google Ads einen neuen, skalierbaren Prozess für aktives Lernen entwickelt. Dieser innovative Ansatz reduziert die für das Feinabstimmen von LLMs benötigte Trainingsdatenmenge drastisch und verbessert gleichzeitig die Ausrichtung des Modells an menschlichen Experten erheblich. Der Prozess kann auf Datensätze angewendet werden, die Hunderte von Milliarden Beispielen enthalten, indem iterativ nur die wertvollsten Instanzen für die menschliche Annotation identifiziert und diese von Experten bereitgestellten Labels für die Modell-Feinabstimmung verwendet werden. In Experimenten reduzierte diese Methode den Umfang der Trainingsdaten von 100.000 Beispielen auf weniger als 500 und steigerte gleichzeitig die Modell-Mensch-Ausrichtung um bis zu 65 Prozent. Bei größeren Modellen in der Produktion wurden sogar noch größere Reduktionen beobachtet, wobei bis zu vier Größenordnungen weniger Daten verwendet wurden, während die Qualität beibehalten oder verbessert wurde.

Der Kurationsprozess beginnt mit einem initialen LLM, dem mit minimaler oder keiner vorherigen spezifischen Schulung eine Aufforderung gegeben wird, die den interessierenden Inhalt definiert – zum Beispiel: „Ist diese Anzeige Clickbait?“ Dieses initiale LLM kennzeichnet dann einen riesigen Datensatz von Anzeigen entweder als „Clickbait“ oder „harmlos“. Da nur ein winziger Bruchteil der Produktionsanzeigen wirklich Clickbait ist und das ungetunte LLM eine niedrige True-Positive-Rate aufweist, ist dieser initiale Datensatz typischerweise stark unausgewogen. Um die informativsten Beispiele zu identifizieren, clustert das System anschließend sowohl die „Clickbait“- als auch die „harmlosen“ Labels. Entscheidend ist, dass es Bereiche identifiziert, in denen sich diese Cluster überschneiden, was auf Instanzen hinweist, bei denen das LLM am meisten verwirrt oder unsicher bezüglich der korrekten Klassifizierung ist. Aus diesen mehrdeutigen Regionen werden Paare von Beispielen ausgewählt, die einander am nächsten liegen, aber unterschiedliche Labels aufweisen. Falls erforderlich, um das Budget einzuhalten, priorisiert das System Paare, die einen größeren Teil des Suchraums repräsentieren. Dieser kuratierte Satz ist sowohl hochinformativ, da er sich auf Beispiele nahe der Entscheidungsgrenze des Modells konzentriert, als auch vielfältig, da er aus verschiedenen Teilen dieser Grenze stammt. Diese ausgewählten Beispiele werden dann zur endgültigen Kennzeichnung an menschliche Experten gesendet.

Die von Experten bereitgestellten Labels werden anschließend in zwei Sätze unterteilt: einen für die Modellbewertung und einen weiteren für die Feinabstimmung des aktuellen LLM, wodurch die nächste Iteration des Modells erstellt wird. Dieser iterative Prozess wird fortgesetzt, bis die Ausrichtung des Modells an menschlichen Experten entweder der internen Übereinstimmung unter den Experten selbst entspricht oder ein Plateau erreicht, was darauf hindeutet, dass keine weitere Verbesserung möglich ist.

Für Klassifizierungsprobleme in der Anzeigensicherheit, wie z. B. Inhaltsmoderation oder Betrugserkennung, gibt es aufgrund der inhärenten Mehrdeutigkeit, die eine Experteninterpretation erfordert, oft keine einzige „Ground Truth“. Daher sind Standardmetriken wie Präzision und Recall, die von einer definitiven Ground Truth abhängen, ungeeignet. Stattdessen verwenden Googles Forscher Cohens Kappa, ein statistisches Maß, das das Ausmaß der Übereinstimmung zwischen zwei unabhängigen Annotatoren oder, in diesem Fall, zwischen dem Modell und menschlichen Experten quantifiziert, über das hinaus, was durch Zufall auftreten könnte. Ein Kappa-Wert näher bei 1 zeigt eine starke Übereinstimmung an, während 0 darauf hindeutet, dass die Übereinstimmung nicht besser als der Zufall ist. Werte über 0,8 gelten im Allgemeinen als außergewöhnlich gut, und Werte über 0,4 werden als akzeptabel angesehen.

Zur Bewertung des neuen Kurationsprozesses wurden Experimente mit zwei Gemini Nano LLMs unterschiedlicher Größe (1,8 Milliarden und 3,25 Milliarden Parameter) für zwei Anzeigensicherheitsaufgaben unterschiedlicher Komplexität durchgeführt. Für Baseline-Vergleiche wurden diese Modelle unter Verwendung von ungefähr 100.000 Crowdsourcing-Annotationen feinabgestimmt, die typischerweise eine signifikante Klassenungleichheit aufwiesen (etwa 95 Prozent harmlose Labels). Unter den kuratierten Bedingungen wurden dieselben Modelle über mehrere Runden hinweg unter Verwendung des neuen aktiven Lernprozesses feinabgestimmt. Die Modelle stagnierten nach 5 bis 6 Iterationen und benötigten insgesamt nur etwa 250 bis 450 von Experten gelabelte Feinabstimmungsbeispiele und 150 bis 250 Evaluierungsbeispiele.

Die Ergebnisse zeigten einen klaren Vorteil für den kuratierten Ansatz, insbesondere beim größeren Modell. Während das 1,8 Milliarden Parameter Modell unter beiden Bedingungen (Baseline und kuratiert) eine vergleichbare, wenn auch geringere Leistung zeigte (Kappa-Werte um 0,24-0,25), verzeichnete das 3,25 Milliarden Parameter Modell mit dem neuen Kurationsprozess erhebliche Qualitätsverbesserungen. Für die Aufgabe geringerer Komplexität stieg sein Kappa-Wert von 0,36 (Baseline) auf 0,56 (kuratiert); für die Aufgabe höherer Komplexität verbesserte er sich von 0,23 auf 0,38. Dies entspricht einer Verbesserung der Ausrichtung an menschlichen Experten um 55-65 Prozent, erreicht durch die Verwendung von drei Größenordnungen weniger Daten – einige hundert Beispiele im Vergleich zu 100.000 in der Baseline.

Diese Ergebnisse unterstreichen, dass eine sorgfältige Kuration von LLM-Datensätzen, um sich auf weniger, informativere Beispiele zu konzentrieren, überlegene oder gleichwertige Klassifikatorleistung mit deutlich weniger Daten erzielen kann. Während die Experimente eine Reduzierung um drei Größenordnungen zeigten, haben Produktionssysteme mit noch größeren Modellen eine Reduzierung des Datenverbrauchs um bis zu vier Größenordnungen erreicht. Solche Gewinne hängen jedoch von extrem hochwertigen menschlichen Annotationen ab; eine Labelqualität von über 0,8 im paarweisen Cohen’s Kappa wurde als notwendig erachtet, um Crowdsourcing-Daten zuverlässig zu übertreffen. Durch die intelligente Kombination der Fähigkeit von LLMs, einen Problemraum breit zu erfassen, mit der Präzision menschlicher Experten bei der Bearbeitung anspruchsvoller Beispiele bietet dieser Kurationsprozess eine flexible und effiziente Möglichkeit, den Datenengpass zu überwinden, was besonders wichtig für sich schnell entwickelnde Bereiche wie die Anzeigensicherheit ist.