Données Synthétiques : Nouvelle Ruée vers l'Or de l'IA ou 'Blanchiment de Données' ?
L’accélération rapide du développement de l’intelligence artificielle est désormais confrontée à un obstacle majeur : une pénurie imminente de données d’entraînement de haute qualité. Alors que les sites web dressent de plus en plus de barrières contre le scraping automatisé, et que le contenu public existant est déjà voracement consommé par les modèles d’IA, les inquiétudes montent quant à l’épuisement prochain de la source d’informations utilisables pour l’entraînement. La solution proposée par l’industrie ? Les données synthétiques.
Ce concept est rapidement devenu un point central, comme l’a souligné Sebastien Bubeck d’OpenAI lors de la récente diffusion en direct de GPT-5. Bubeck a souligné son importance critique pour l’avenir de l’IA, un sentiment partagé par Sam Altman, PDG d’OpenAI, qui a exprimé son enthousiasme pour son potentiel.
Cependant, la perspective de voir les modèles d’IA dépendre fortement de données générées artificiellement n’est pas passée inaperçue auprès des industries créatives, où le scepticisme abonde. Reid Southern, artiste conceptuel de cinéma et illustrateur, suggère que les entreprises d’IA comme OpenAI se tournent vers les données synthétiques précisément parce qu’elles ont épuisé l’offre de données de haute qualité créées par l’homme et disponibles sur l’internet public. Southern avance également un motif plus controversé : que les données synthétiques offrent un moyen d’éloigner davantage les développeurs d’IA de tout matériel protégé par le droit d’auteur sur lequel leurs modèles auraient pu initialement être entraînés, atténuant ainsi les éventuels litiges juridiques.
Pour cette raison, Southern a publiquement dénoncé cette pratique comme du “blanchiment de données”. Il soutient que les entreprises d’IA pourraient potentiellement entraîner leurs modèles sur des œuvres protégées par le droit d’auteur, générer ensuite des variations d’IA, puis supprimer le contenu original protégé par le droit d’auteur de leurs ensembles de données. Ce processus, affirme-t-il, leur permet alors de “prétendre que leur ensemble d’entraînement est ‘éthique’ parce qu’il n’a pas techniquement été entraîné sur l’image originale, selon leur logique”. Southern explique : “C’est pourquoi nous appelons cela du blanchiment de données, parce qu’en un sens, ils tentent de nettoyer les données et de les dépouiller de leur droit d’auteur.”
En réponse, un porte-parole d’OpenAI a déclaré que l’entreprise crée des données synthétiques “pour faire progresser l’IA, conformément aux lois sur le droit d’auteur pertinentes”. Ils ont ajouté que la génération de données synthétiques de haute qualité leur permet de “construire des produits plus intelligents et plus performants comme ChatGPT qui aident des millions de personnes à travailler plus efficacement, à découvrir de nouvelles façons d’apprendre et de créer, et à permettre aux pays d’innover et de concourir à l’échelle mondiale”.
La question est cependant plus complexe, selon Felix Simon, chercheur en IA à l’Université d’Oxford. Simon souligne que l’utilisation de données synthétiques “ne remédie pas réellement au préjudice initial sur lequel créateurs et entreprises d’IA se querellent”. Il souligne que les données synthétiques ne sont pas tirées de rien ; elles sont vraisemblablement créées par des modèles qui ont déjà été entraînés sur des données de créateurs et de titulaires de droits d’auteur, souvent sans leur permission explicite ou compensation. Du point de vue de la justice sociale, des droits et des devoirs, Simon estime que ces titulaires de droits doivent toujours être redevables de quelque chose, qu’il s’agisse d’une compensation, de reconnaissances, ou des deux, même lorsque des données synthétiques sont utilisées.
Ed Newton-Rex, fondateur de Fairly Trained, une organisation à but non lucratif qui certifie les entreprises d’IA respectant les droits de propriété intellectuelle, partage les préoccupations sous-jacentes de Southern. Tout en reconnaissant que les données synthétiques peuvent être un “moyen légitimement utile d’augmenter votre ensemble de données” et d’accroître la couverture des données d’entraînement, surtout lorsque l’accès aux données légitimes devient contraint, il reconnaît également leur côté problématique. “En même temps, je pense malheureusement que son effet est, au moins en partie, celui d’un blanchiment de droits d’auteur”, concède Newton-Rex, suggérant que les deux vérités peuvent coexister.
Newton-Rex met en garde contre l’acceptation des assurances des entreprises d’IA au pied de la lettre, soulignant que les données synthétiques ne sont pas une panacée pour les questions cruciales de droits d’auteur qui affligent l’industrie. Il note une croyance répandue, mais erronée, selon laquelle les données synthétiques offrent aux développeurs d’IA un contournement commode des préoccupations relatives aux droits d’auteur. En outre, il soutient que la façon même dont les données synthétiques sont formulées et la manière dont les entreprises d’IA discutent de l’entraînement des modèles servent à les éloigner des individus dont ils pourraient utiliser le travail. Il compare cela au recyclage du plastique, où un nouveau produit fabriqué à partir de matériaux recyclés n’efface pas sa source originale. “Le fait que ces modèles d’IA mélangent toutes ces choses et génèrent, entre guillemets, de ‘nouvelles sorties’, ne fait rien pour réduire leur dépendance à l’égard de l’œuvre originale”, affirme-t-il.
Pour Newton-Rex, la conclusion cruciale est claire : même dans un monde de plus en plus dépendant des données synthétiques, la dynamique fondamentale reste celle où le travail créatif des gens est exploité, souvent pour créer des produits qui leur font ensuite directement concurrence.