KI-Wettbewerb: Post-Processing verhilft zu synthetischen Daten
Ein jüngster Triumph im „Mostly AI Prize“-Wettbewerb hat eine entscheidende Erkenntnis zur Generierung synthetischer Daten ans Licht gebracht: Während fortschrittliche Machine-Learning-Modelle unverzichtbar sind, hängt die Erzielung hochpräziser Daten oft von einer ausgeklügelten Nachbearbeitung (Post-Processing) ab. Die Gewinnerlösung, die in den FLAT- und SEQUENTIAL-Datenherausforderungen höchste Auszeichnungen erhielt, zeigte, wie eine sorgfältige Verfeinerung die Rohausgabe eines Modells nahezu perfekt an die statistische Ausrichtung mit den Quelldaten anpassen kann.
Der „Mostly AI Prize“ zielte darauf ab, synthetische Datensätze zu generieren, die die statistischen Merkmale der ursprünglichen Quelldaten präzise widerspiegelten, und zwar entscheidend ohne direkte Kopie realer Aufzeichnungen. Der Wettbewerb umfasste zwei unterschiedliche Herausforderungen: die FLAT Data Challenge, die 100.000 Datensätze über 80 Spalten erforderte, und die SEQUENTIAL Data Challenge, die 20.000 Datensatzsequenzen umfasste. Die Datenqualität wurde mithilfe einer Metrik für die „Gesamtgenauigkeit“ streng bewertet, die den L1-Abstand – ein Maß für die Differenz – zwischen synthetischen und Quelldatenverteilungen über einzelne, gepaarte und dreifache Spalten quantifizierte. Um Überanpassung oder Datenreplikation zu verhindern, wurden auch Datenschutzmetriken wie Distance to Closest Record (DCR) und Nearest Neighbor Distance Ratio (NNDR) angewendet.
Erste Bemühungen, ein Ensemble modernster generativer Modelle zu erforschen, führten nur zu marginalen Verbesserungen. Der entscheidende Wandel kam mit einer intensiven Konzentration auf die Nachbearbeitung. Die Strategie umfasste das Training eines einzelnen generativen Modells aus dem Mostly AI SDK und anschließend ein Oversampling, um einen deutlich größeren Pool an Kandidatenproben zu erstellen. Aus diesem umfangreichen Pool wurde die endgültige Ausgabe sorgfältig ausgewählt und verfeinert. Dieser Ansatz steigerte die Leistung dramatisch: Für die FLAT-Datenherausforderung erzielten rohe synthetische Daten etwa 0,96 Punkte, aber nach der Nachbearbeitung stieg die Punktzahl auf beeindruckende 0,992. Eine modifizierte Version erzielte ähnliche Gewinne in der SEQUENTIAL-Herausforderung.
Die finale Pipeline für die FLAT-Herausforderung umfasste drei Hauptschritte: Iterative Proportionale Anpassung (IPF), Gieriges Trimmen (Greedy Trimming) und Iterative Verfeinerung.
IPF diente als entscheidender erster Schritt, indem es einen hochwertigen, überdimensionierten Teilsatz aus einem anfänglichen Pool von 2,5 Millionen generierten Zeilen auswählte. Dieser klassische statistische Algorithmus passte die bivariaten (zweispaltigen) Verteilungen der synthetischen Daten eng an die der Originaldaten an. IPF konzentrierte sich auf die 5.000 am stärksten korrelierten Spaltenpaare und berechnete Bruchgewichte für jede synthetische Zeile, wobei diese iterativ angepasst wurden, bis die bivariaten Verteilungen mit dem Ziel übereinstimmten. Diese Gewichte wurden dann in ganze Zahlen umgewandelt, was zu einem überdimensionierten Teilsatz von 125.000 Zeilen führte – dem 1,25-fachen der erforderlichen Größe –, der bereits eine starke bivariate Genauigkeit aufwies.
Der überdimensionierte Teilsatz durchlief dann eine Phase des Gierigen Trimmens. Dieser iterative Prozess berechnete den „Fehlerbeitrag“ jeder Zeile und entfernte systematisch diejenigen, die am meisten zur statistischen Distanz von der Zielverteilung beitrugen. Dies wurde fortgesetzt, bis genau 100.000 Zeilen übrig blieben, wobei die am wenigsten genauen Proben verworfen wurden.
Die letzte Phase, die Iterative Verfeinerung, umfasste einen ausgeklügelten Austauschprozess. Der Algorithmus identifizierte iterativ die am schlechtesten performenden Zeilen innerhalb des 100.000-Zeilen-Teilsatzes und suchte in den verbleibenden 2,4 Millionen Zeilen im ungenutzten Datenpool nach optimalen Ersatzkandidaten. Ein Austausch wurde nur ausgeführt, wenn er zu einer Verbesserung der Gesamtpunktzahl führte, was eine entscheidende letzte Politur darstellte.
Die SEQUENTIAL-Herausforderung führte einzigartige Komplexitäten ein: Proben waren Gruppen von Zeilen, und eine „Kohärenz“-Metrik bewertete, wie gut die Ereignissequenzen den Quelldaten ähnelten. Die Post-Processing-Pipeline wurde entsprechend angepasst. Zuerst wurde ein Kohärenz-basierter Vorauswahlschritt eingeführt, der ganze Gruppen iterativ austauschte, um sie an die Kohärenzmetriken der Originaldaten anzupassen, wie z.B. die Verteilung der „eindeutigen Kategorien pro Sequenz“. Dies gewährleistete eine solide sequentielle Struktur. Die 20.000 kohärenzoptimierten Gruppen durchliefen dann einen statistischen Verfeinerungs- (Austausch-) Prozess, ähnlich dem für die flachen Daten, bei dem ganze Gruppen ausgetauscht wurden, um den L1-Fehler über univariate, bivariate und trivariate Verteilungen zu minimieren. Bemerkenswert ist, dass die „Sequenzlänge“ als Merkmal aufgenommen wurde, um sicherzustellen, dass die Gruppenlängen berücksichtigt wurden. Der IPF-Ansatz, der für flache Daten effektiv war, erwies sich hier als weniger vorteilhaft und wurde weggelassen, um Rechenressourcen neu zuzuweisen.
Die rechenintensive Nachbearbeitungsstrategie erforderte eine erhebliche Optimierung, um Zeitlimits einzuhalten. Zu den Schlüsseltechniken gehörte die Reduzierung von Datentypen (z.B. von 64-Bit auf 32-Bit oder 16-Bit) zur Speicherverwaltung. Sparsere Matrizen von SciPy wurden zur effizienten Speicherung statistischer Beiträge eingesetzt. Darüber hinaus wurde für Kernverfeinerungsschleifen mit spezialisierten Berechnungen, die in Standard-NumPy langsam waren, Numba genutzt. Durch das Dekorieren von Engpassfunktionen mit @numba.njit
übersetzte Numba diese automatisch in hochoptimierten Maschinencode, wodurch Geschwindigkeiten erzielt wurden, die mit C vergleichbar sind, obwohl Numba nur gezielt für spezifische numerische Engpässe eingesetzt wurde.
Dieser Sieg unterstreicht eine wichtige Lektion für Datenwissenschaftler: Die „Geheimzutat“ geht oft über das generative Modell selbst hinaus. Während ein robustes Modell die Grundlage bildet, sind die Vor- und Nachbearbeitungsphasen gleichermaßen, wenn nicht sogar noch kritischer. Für diese synthetischen Datenherausforderungen erwies sich eine sorgfältig entworfene Nachbearbeitungspipeline, die speziell auf die Bewertungsmetriken zugeschnitten war, als entscheidender Faktor, der den Sieg sicherte, ohne zusätzliche Entwicklung von Machine-Learning-Modellen zu erfordern. Der Wettbewerb bekräftigte den tiefgreifenden Einfluss von Data Engineering und statistischer Verfeinerung bei der Erzielung hochpräziser synthetischer Daten.