Googles CTCL: Leichte KI für private Datensynthese – Effizient & Sicher

Research

Die Generierung großskaliger, datenschutzfreundlicher synthetischer Daten stellt eine erhebliche Herausforderung in der künstlichen Intelligenz dar, hauptsächlich aufgrund eines inhärenten Kompromisses zwischen robusten Datenschutzgarantien, Rechenanforderungen und der Nützlichkeit der generierten Daten. Das Erreichen eines starken Datenschutzes erfordert oft entweder eine Beeinträchtigung der Datenqualität oder erhebliche Rechenkosten. Ein gängiger Ansatz besteht darin, massive, milliardenschwere große Sprachmodelle (LLMs) auf sensiblen „privaten Daten“ – dem für den Datenschutz vorgesehenen Datensatz – privat feinabzustimmen und dann Stichproben aus diesen angepassten Modellen zu ziehen. Diese Methode ist jedoch rechenintensiv und für viele ressourcenbeschränkte Anwendungen unpraktikabel. Neuere Algorithmen wie Aug-PE und Pre-Text haben versucht, dies zu umgehen, indem sie sich auf den LLM-API-Zugriff verlassen, doch sie sind häufig auf umfangreiche manuelle Prompts angewiesen und haben Schwierigkeiten, private Informationen während der iterativen Datenauswahl effektiv zu nutzen.

Um diese Einschränkungen zu adressieren, haben Forscher bei Google CTCL (Data Synthesis with ConTrollability and CLustering) entwickelt, ein neuartiges Framework zur Erstellung datenschutzfreundlicher synthetischer Daten. Auf der ICML 2025 vorgestellt, eliminiert CTCL die Notwendigkeit, milliardenschwere LLMs feinabzustimmen oder sich mit domänenspezifischem Prompt-Engineering zu befassen. Stattdessen verwendet es ein leichtgewichtiges Modell mit 140 Millionen Parametern, was es zu einer praktikablen Lösung für ressourcenbeschränkte Umgebungen macht. Durch die Einbeziehung von Themeninformationen stellt CTCL sicher, dass die generierten synthetischen Daten die Themenverteilung der ursprünglichen privaten Domäne genau widerspiegeln. Entscheidend ist, dass CTCL im Gegensatz zu Algorithmen wie Aug-PE eine unbegrenzte Anzahl synthetischer Datenproben generieren kann, ohne zusätzliche Datenschutzkosten zu verursachen, indem es eine grundlegende Eigenschaft der Differential Privacy nutzt. Umfangreiche Evaluierungen über verschiedene Datensätze hinweg haben die durchweg überlegene Leistung von CTCL gegenüber Basislinienmethoden gezeigt, insbesondere wenn starke Datenschutzgarantien erforderlich sind. Darüber hinaus haben Ablationsstudien die entscheidende Rolle des Vortrainings und der schlüsselwortbasierten Konditionierung bei der Erzielung dieser Ergebnisse unterstrichen und gleichzeitig die verbesserte Skalierbarkeit von CTCL im Vergleich zu Aug-PE demonstriert.

Das CTCL-Framework ist sorgfältig darauf ausgelegt, hochwertige synthetische Daten aus privaten Datensätzen zu produzieren und dabei die Privatsphäre streng zu wahren. Sein Betrieb entfaltet sich in drei Hauptphasen, die auf zwei Kernkomponenten basieren, die einmalig unter Verwendung umfangreicher öffentlicher Korpora entwickelt wurden: CTCL-Topic und CTCL-Generator. CTCL-Topic dient als universelles Themenmodell, das übergeordnete Themen identifiziert, während CTCL-Generator ein leistungsstarkes Sprachmodell ist, das Dokumente basierend auf spezifischen Eingabebedingungen wie Schlüsselwörtern generieren kann.

Die Anfangsphase beinhaltet die Entwicklung dieser Komponenten. CTCL-Topic wird aus Wikipedia abgeleitet, wobei Dokumente in etwa 1.000 verschiedene Themen geclustert werden, von denen jedes durch zehn Schlüsselwörter repräsentiert wird. Gleichzeitig wird CTCL-Generator, ein bedingtes Sprachmodell mit 140 Millionen Parametern, durch kontinuierliches Vortraining an einem massiven Datensatz von Beschreibungs-Dokument-Paaren aufgebaut, die durch die Aufforderung an Gemma-2-2B, Dokumente aus SlimPajama zu beschreiben, erstellt wurden.

In der zweiten Phase lernt das Framework die private Domäne. CTCL-Topic erfasst die übergeordnete Themenverteilung aus dem privaten Korpus und sammelt ein datenschutzfreundliches Histogramm, das den Prozentsatz jedes Themas quantifiziert. Jedes private Dokument wird dann einem Thema zugeordnet, was zehn Schlüsselwörter ergibt. Der CTCL-Generator wird anschließend mit Differential Privacy auf diesem transformierten Datensatz von Schlüsselwörtern und Dokumentenpaaren feinabgestimmt.

Die letzte Phase ist die Generierung synthetischer Daten. Der differentialprivat feinabgestimmte CTCL-Generator wird proportional für jedes Thema gesampelt, geleitet durch das datenschutzfreundliche Themenhistogramm. Dies ermöglicht eine präzise Kontrolle über die Zusammensetzung des synthetischen Datensatzes. Ein entscheidender Vorteil ist, dass der CTCL-Generator eine beliebige Menge synthetischer Daten produzieren kann, ohne zusätzliche Datenschutzkosten zu verursachen, ein Vorteil, der sich aus der Nachbearbeitungseigenschaft der Differential Privacy ergibt.

Es wurden Experimente an vier verschiedenen Datensätzen durchgeführt: drei für generative Aufgaben (PubMed, Chatbot Arena, Multi-Session Chat) und einer für eine Klassifikationsaufgabe (OpenReview). Generative Aufgaben, die die Genauigkeit der Vorhersage des nächsten Tokens bewerten, sind anspruchsvoller, da sie die Erhaltung feinkörniger Textinformationen erfordern. Die Qualität wurde bewertet, indem ein kleines nachgeschaltetes Sprachmodell oder Klassifikator auf den synthetischen Daten trainiert und dessen Genauigkeit auf realen Testdaten gemessen wurde, wobei sorgfältige Maßnahmen zur Verhinderung von Datenkontamination ergriffen wurden.

Die Ergebnisse zeigten durchweg die überlegene Leistung von CTCL über alle Datensätze hinweg, insbesondere unter starken Datenschutzgarantien (kleinere Epsilon-Werte). Es übertraf Baselines wie das direkte differentialprivate Fein-Tuning und Aug-PE und unterstreicht seine robuste Fähigkeit, wertvolle private Informationen zu erfassen, während hohe Datenschutzstandards eingehalten werden.

Darüber hinaus zeigte CTCL eine bessere Skalierbarkeit als Aug-PE sowohl in Bezug auf das Datenschutzbudget als auch auf das Volumen der synthetischen Daten. Die Leistung von CTCL verbesserte sich mit einem erhöhten Datenschutzbudget, ein Trend, der bei Aug-PE nicht beobachtet wurde. Ähnlich stieg die Genauigkeit des nachgeschalteten Modells mit mehr von CTCL generierten Proben weiter an, während die Leistung von Aug-PE stagnierte. Diese Ergebnisse unterstreichen, dass feinabstimmungsbasierte Methoden wie CTCL effektiver bei der Erfassung feinkörniger Statistiken sind als promptbasierte Methoden wie Aug-PE.

Ablationsstudien bestätigten ferner den kritischen Einfluss zweier Designelemente: das Vortraining des CTCL-Generators auf öffentlichen Korpora und die Integration schlüsselwortbasierter Bedingungen während des differentialprivaten Fein-Tunings. Diese Studien ergaben, dass die Einbeziehung von Schlüsselwörtern während des Fein-Tunings den Testverlust um 50 % reduzierte, wobei eine zusätzliche Reduzierung um 50 % durch das Hinzufügen des Vortrainings bei festem Datenschutzbudget erzielt wurde. Dies bestätigt, dass beide Komponenten für die Wirksamkeit des Frameworks von grundlegender Bedeutung sind.

Für die Zukunft gilt: Obwohl CTCL derzeit einen 140-Millionen-Parameter-Generator verwendet, kann das zugrunde liegende Prinzip der Verwendung von Clustering-Informationen oder von LLM extrahierten Metadaten als Eingabeanweisungen leicht auf größere Modelle erweitert werden. Dieser Weg wird aktiv erforscht, um reale Anwendungen der datenschutzfreundlichen Datensynthese weiter zu verbessern.