Défi de Données Synthétiques : La Post-Traitement Révèle le Secret

Towardsdatascience

Un récent triomphe dans la compétition « Mostly AI Prize » a mis en lumière une perspicacité cruciale dans la génération de données synthétiques : si les modèles d’apprentissage automatique avancés sont indispensables, l’obtention de données de haute fidélité dépend souvent d’un post-traitement sophistiqué. La solution gagnante, qui a obtenu les meilleurs honneurs dans les défis de données FLAT et SEQUENTIAL, a démontré comment un raffinement méticuleux peut élever la sortie brute du modèle à un alignement statistique quasi parfait avec les données sources.

Le « Mostly AI Prize » visait à générer des ensembles de données synthétiques qui reflétaient précisément les caractéristiques statistiques des données sources originales, et, crucialement, sans aucune copie directe de registres réels. La compétition comportait deux défis distincts : le Défi de Données FLAT, nécessitant 100 000 enregistrements sur 80 colonnes, et le Défi de Données SEQUENTIAL, impliquant 20 000 séquences d’enregistrements. La qualité des données a été rigoureusement évaluée à l’aide d’une métrique d’« Exactitude Globale », quantifiant la distance L1 — une mesure de différence — entre les distributions de données synthétiques et sources sur des colonnes simples, appariées et triples. Pour se prémunir contre le surapprentissage ou la réplication de données, des métriques de confidentialité telles que la Distance au Registre le Plus Proche (DCR) et le Ratio de Distance du Plus Proche Voisin (NNDR) ont également été appliquées.

Les efforts initiaux explorant un ensemble de modèles génératifs de pointe n’ont produit que des améliorations marginales. Le tournant décisif est venu avec une concentration intensive sur le post-traitement. La stratégie a impliqué la formation d’un unique modèle génératif à partir du SDK Mostly AI, puis un suréchantillonnage pour créer un pool significativement plus grand d’échantillons candidats. À partir de ce pool étendu, la sortie finale a été méticuleusement sélectionnée et raffinée. Cette approche a considérablement stimulé les performances : pour le défi de données FLAT, les données synthétiques brutes ont obtenu un score d’environ 0,96, mais après post-traitement, le score a grimpé à un impressionnant 0,992. Une version modifiée a délivré des gains similaires dans le défi SEQUENTIAL.

Le pipeline final pour le défi FLAT comprenait trois étapes principales : l’Ajustement Proportionnel Itératif (IPF), l’Élagage Glouton (Greedy Trimming) et le Raffinement Itératif.

L’IPF a servi de première étape cruciale, sélectionnant un sous-ensemble de haute qualité et surdimensionné à partir d’un pool initial de 2,5 millions de lignes générées. Cet algorithme statistique classique a ajusté les distributions bivariées (à deux colonnes) des données synthétiques pour qu’elles correspondent étroitement à celles des données originales. En se concentrant sur les 5 000 paires de colonnes les plus corrélées, l’IPF a calculé des poids fractionnaires pour chaque ligne synthétique, les ajustant itérativement jusqu’à ce que les distributions bivariées s’alignent avec la cible. Ces poids ont ensuite été convertis en nombres entiers, produisant un sous-ensemble surdimensionné de 125 000 lignes — 1,25 fois la taille requise — bénéficiant déjà d’une forte précision bivariée.

Le sous-ensemble surdimensionné a ensuite subi une phase d’Élagage Glouton. Ce processus itératif a calculé la “contribution d’erreur” de chaque ligne, supprimant systématiquement celles qui contribuaient le plus à la distance statistique par rapport à la distribution cible. Cela a continué jusqu’à ce qu’il ne reste précisément que 100 000 lignes, écartant les échantillons les moins précis.

La phase finale, le Raffinement Itératif, a impliqué un processus d’échange sophistiqué. L’algorithme a identifié itérativement les lignes les moins performantes au sein du sous-ensemble de 100 000 lignes et a recherché dans les 2,4 millions de lignes restantes du pool de données inutilisées les candidats de remplacement optimaux. Un échange n’était exécuté que s’il entraînait une amélioration du score global, offrant une touche finale cruciale.

Le défi SEQUENTIAL a introduit des complexités uniques : les échantillons étaient des groupes de lignes, et une métrique de “cohérence” évaluait la ressemblance des séquences d’événements avec les données sources. Le pipeline de post-traitement a été adapté en conséquence. Une étape de Pré-sélection Basée sur la Cohérence a d’abord été introduite, échangeant itérativement des groupes entiers pour s’aligner avec les métriques de cohérence des données originales, telles que la distribution des “catégories uniques par séquence”. Cela a assuré une structure séquentielle solide. Les 20 000 groupes optimisés en cohérence ont ensuite subi un processus de Raffinement Statistique (Échange) similaire à celui des données plates, où des groupes entiers ont été échangés pour minimiser l’erreur L1 sur les distributions univariées, bivariées et trivariées. Notamment, la “Longueur de Séquence” a été incluse comme caractéristique pour s’assurer que les longueurs de groupe étaient prises en compte. L’approche IPF, efficace pour les données plates, s’est avérée moins bénéfique ici et a été omise pour réaffecter les ressources de calcul.

La stratégie de post-traitement, intensive en calcul, a exigé une optimisation significative pour respecter les délais. Les techniques clés comprenaient la réduction des types de données (par exemple, de 64 bits à 32 bits ou 16 bits) pour gérer la mémoire. Des matrices creuses de SciPy ont été utilisées pour un stockage efficace des contributions statistiques. De plus, pour les boucles de raffinement centrales avec des calculs spécialisés qui étaient lents dans NumPy standard, Numba a été exploité. En décorant les fonctions de goulot d’étranglement avec @numba.njit, Numba les a automatiquement traduites en code machine hautement optimisé, atteignant des vitesses comparables à celles du C, bien que Numba ait été utilisé judicieusement pour des goulots d’étranglement numériques spécifiques.

Cette victoire souligne une leçon vitale pour les scientifiques des données : l’« ingrédient secret » s’étend souvent au-delà du modèle génératif lui-même. Bien qu’un modèle robuste constitue la fondation, les étapes de pré- et post-traitement sont tout aussi, sinon plus, critiques. Pour ces défis de données synthétiques, un pipeline de post-traitement méticuleusement conçu, spécifiquement adapté aux métriques d’évaluation, s’est avéré être le facteur décisif, assurant la victoire sans nécessiter de développement supplémentaire de modèles d’apprentissage automatique. La compétition a renforcé l’impact profond de l’ingénierie des données et du raffinement statistique dans l’obtention de données synthétiques de haute fidélité.