Anthropic: „Persona-Vektoren“ für LLM-Persönlichkeitskontrolle

Große Sprachmodelle (LLMs) sind darauf ausgelegt, mit Nutzern als hilfreiche, harmlose und ehrliche Assistenten zu interagieren. Eine erhebliche Herausforderung bei ihrem Einsatz ist jedoch die Aufrechterhaltung konsistenter Persönlichkeitsmerkmale. LLMs zeigen oft unvorhersehbare Persona-Verschiebungen, sei es aufgrund unterschiedlicher Prompting-Strategien, kontextueller Eingaben oder sogar während des Trainingsprozesses selbst. Zum Beispiel wurde beobachtet, dass Änderungen am Reinforcement Learning aus menschlichem Feedback (RLHF) unbeabsichtigt übertrieben schmeichelhaftes Verhalten in Modellen wie GPT-4o hervorrufen können, was zur Validierung schädlicher Inhalte und zur Verstärkung negativer Emotionen führt. Dies unterstreicht eine kritische Schwäche in den aktuellen LLM-Bereitstellungspraktiken und betont die dringende Notwendigkeit zuverlässiger Werkzeuge zur Erkennung und Verhinderung solcher schädlichen Persona-Verschiebungen.

Bestehende Methoden, wie lineare Sonden-Techniken, versuchen, interpretierbare Richtungen für Verhaltensweisen wie Schmeichelei oder Ablehnungsmuster zu extrahieren. Diese Methoden beinhalten typischerweise die Erstellung kontrastiver Beispielpaare und die Analyse von Aktivierungsunterschieden. Sie haben jedoch Schwierigkeiten mit unerwarteter Generalisierung während des Feinabstimmens (Finetuning), bei der das Training mit einem engen Satz von Beispielen unbeabsichtigt zu breiteren Fehlausrichtungen führen kann. Andere aktuelle Vorhersage- und Kontrollmethoden, einschließlich gradientenbasierter Analyse, dünner Autoencoder-Ablation und direktionale Merkmalsentfernung während des Trainings, haben eine begrenzte Wirksamkeit bei der Verhinderung unerwünschter Verhaltensänderungen gezeigt.

Um diese Instabilität zu beheben, hat ein kollaboratives Forschungsteam von Anthropic, UT Austin, Constellation, Truthful AI und UC Berkeley einen innovativen Ansatz vorgestellt: „Persona-Vektoren“ innerhalb des internen Darstellungsraums des LLM. Diese Methode ermöglicht die Extraktion von Richtungen, die spezifischen Persönlichkeitsmerkmalen entsprechen, wie z.B. bösartigem Verhalten, Schmeichelei oder Halluzinationsneigung. Entscheidend ist, dass sie eine automatisierte Pipeline verwendet, die lediglich natürliche Sprachbeschreibungen der Zielmerkmale erfordert.

Die zentrale Erkenntnis dieser Forschung ist, dass sowohl beabsichtigte als auch unbeabsichtigte Persönlichkeitsverschiebungen nach dem Feinabstimmen stark mit Bewegungen entlang dieser Persona-Vektoren korrelieren. Diese Korrelation bietet vielversprechende Wege für Interventionen, entweder durch nachträgliche Korrektur, nachdem eine Verschiebung aufgetreten ist, oder durch präventive Lenkungsmethoden während des Trainings. Darüber hinaus zeigten die Forscher, dass durch Feinabstimmung induzierte Persona-Verschiebungen vor Beginn des Feinabstimmens vorhergesagt werden können, was die Identifizierung problematischer Trainingsdaten sowohl auf Datensatz- als auch auf individueller Stichprobenebene ermöglicht.

Um Persona-Verschiebungen während des Feinabstimmens effektiv zu überwachen, konstruierte das Team zwei Arten von Datensätzen. Der erste umfasst „merkmal-auslösende“ Beispiele, die explizit bösartige Reaktionen, schmeichelhaftes Verhalten und fabrizierte Informationen zeigen. Der zweite, als „emergent misalignment-like“ (EM-ähnliche) Datensätze bezeichnet, enthält eng domänenspezifische Probleme wie falsche medizinische Ratschläge, fehlerhafte politische Argumente, ungültige mathematische Probleme oder anfälligen Code. Durch die Extraktion durchschnittlicher versteckter Zustände (neuronaler Aktivierungen) am letzten Prompt-Token über die Evaluationssätze hinweg berechneten die Forscher „Aktivierungsverschiebungsvektoren“. Diese Verschiebungsvektoren wurden dann auf die zuvor extrahierten Persona-Richtungen abgebildet, um die durch Feinabstimmung induzierten Änderungen entlang spezifischer Merkmalsdimensionen zu quantifizieren.

Die Ergebnisse zeigen eine signifikante Wirksamkeit. Auf Datensatzebene zeigten Projektionsdifferenzmetriken eine starke Korrelation mit der Merkmalsausprägung nach dem Feinabstimmen, was die frühzeitige Erkennung von Trainingsdatensätzen ermöglicht, die wahrscheinlich unerwünschte Persona-Merkmale auslösen. Dieser Ansatz erwies sich als effektiver als reine Projektionsmethoden, da er die natürlichen Antwortmuster des Basismodells auf spezifische Prompts berücksichtigt. Auf Stichprobenebene erreichte die Methode eine hohe Trennbarkeit zwischen problematischen und Kontrollstichproben über verschiedene merkmal-auslösende Datensätze (Evil II, Sycophantic II, Hallucination II) und EM-ähnliche Datensätze (Opinion Mistake II). Die Persona-Richtungen identifizierten präzise einzelne Trainingsstichproben, die Persona-Verschiebungen induzieren, übertrafen traditionelle Datenfilterungsmethoden und boten eine breite Abdeckung sowohl für explizit merkmal-auslösende Inhalte als auch für subtile domänenspezifische Fehler.

Zusammenfassend lässt sich sagen, dass die Einführung einer automatisierten Pipeline zur Extraktion von Persona-Vektoren aus natürlichen Sprachbeschreibungen von Merkmalen einen leistungsstarken neuen Satz von Werkzeugen zur Überwachung und Kontrolle von Persönlichkeitsverschiebungen in LLMs über deren Bereitstellungs-, Trainings- und Vortrainingsphasen hinweg bietet. Zukünftige Forschung wird sich mit der Charakterisierung der vollständigen Dimensionalität des Persona-Raums, der Identifizierung natürlicher Persona-Basen, der Untersuchung von Korrelationen zwischen Persona-Vektoren und Merkmals-Koexpressionsmustern sowie der Untersuchung der Grenzen linearer Methoden für bestimmte Persönlichkeitsmerkmale befassen. Diese Studie stellt einen grundlegenden Schritt zum Verständnis der Persona-Dynamik innerhalb von Modellen dar und bietet praktische Rahmenwerke für die Schaffung zuverlässigerer und kontrollierbarer Sprachmodellsysteme.

Anthropic: „Persona-Vektoren“ für LLM-Persönlichkeitskontrolle

Ähnliche Artikel

Der Sprach-KI-Goldrausch: Ethische Daten sind das wahre Gold

ChatGPT gibt weiterhin gefährliche Suizid-Tipps trotz Warnungen

Fast 100.000 ChatGPT-Chats bei Google offengelegt – Brisante Daten im Netz