L'IA et les Données Synthétiques : Innovation vs. Droit d'Auteur

Fastcompany

Le rythme rapide du développement de l’intelligence artificielle est confronté à un défi imminent : une pénurie potentielle de données d’entraînement de haute qualité. Alors que les sites web dressent de plus en plus de barrières à la collecte de données, et que le contenu en ligne existant est voracement “scrapé” pour alimenter l’entraînement des modèles d’IA, les inquiétudes montent quant au fait que le puits d’informations utilisables pourrait bientôt se tarir. La solution proposée par l’industrie est de plus en plus claire : les données synthétiques.

“Récemment dans l’industrie, les données synthétiques ont été beaucoup discutées”, a déclaré Sebastien Bubeck, membre du personnel technique chez OpenAI, lors du récent événement de lancement de GPT-5 de l’entreprise. Bubeck a souligné son rôle essentiel pour l’avenir des modèles d’IA, un sentiment partagé par Sam Altman, PDG d’OpenAI, qui a exprimé son enthousiasme pour “beaucoup plus à venir”.

Cependant, la perspective d’une forte dépendance aux données générées par l’IA n’est pas passée inaperçue auprès des industries créatives. Reid Southern, artiste conceptuel et illustrateur de films, suggère que les entreprises d’IA comme OpenAI se tournent vers les données synthétiques principalement parce qu’elles ont épuisé l’approvisionnement en contenu de haute qualité, créé par l’homme, disponible sur l’internet public. Southern avance également un motif plus controversé : “Cela les éloigne davantage de tout matériel protégé par le droit d’auteur sur lequel elles se sont entraînées et qui pourrait leur causer des problèmes.”

Pour cette raison, Southern a publiquement qualifié cette pratique de “blanchiment de données”. Il soutient que les entreprises d’IA pourraient initialement entraîner leurs modèles sur des œuvres protégées par le droit d’auteur, générer ensuite des variations de ce contenu par l’IA, puis supprimer le matériel original protégé du droit d’auteur de leurs ensembles de données d’entraînement. Cette stratégie, affirme-t-il, leur permettrait d’affirmer que leur ensemble d’entraînement est “éthique” car, selon leur logique, il n’a pas “techniquement” été entraîné sur l’image originale protégée par le droit d’auteur. “C’est pourquoi nous appelons cela le blanchiment de données”, explique Southern, “parce qu’en un sens, elles tentent de nettoyer les données et de les dépouiller de leur droit d’auteur.”

En réponse, un porte-parole d’OpenAI a affirmé l’engagement de l’entreprise envers un développement responsable : “Nous créons des données synthétiques pour faire progresser l’IA, conformément aux lois sur le droit d’auteur pertinentes.” Le porte-parole a ajouté que la génération de données synthétiques de haute qualité leur permet de construire des produits plus intelligents et plus performants comme ChatGPT, qui permettent à des millions de personnes de travailler plus efficacement, de découvrir de nouvelles façons d’apprendre et de créer, et de favoriser l’innovation et la concurrence mondiales.

Felix Simon, chercheur en IA à l’Université d’Oxford, examine la question avec une lentille plus nuancée. Il souligne que si les données synthétiques peuvent sembler offrir une ardoise propre, elles “ne remédient pas réellement au préjudice initial pour lequel les créateurs et les entreprises d’IA se querellent”. Il souligne que les données synthétiques ne sont pas conjurées de nulle part ; elles sont vraisemblablement créées par des modèles qui ont eux-mêmes été entraînés sur des données de créateurs et de détenteurs de droits d’auteur, souvent sans permission ni compensation. Du point de vue de la justice sociale, des droits et des devoirs, Simon affirme que “ces détenteurs de droits ont toujours droit à quelque chose, même avec l’utilisation de données synthétiques – qu’il s’agisse d’une compensation, de reconnaissances, ou des deux.”

Ed Newton-Rex, fondateur de Fairly Trained – une organisation à but non lucratif qui certifie les entreprises d’IA respectant les droits de propriété intellectuelle des créateurs – partage les préoccupations fondamentales de Southern. Il reconnaît l’utilité légitime des données synthétiques comme un moyen d’“augmenter votre ensemble de données” et d’“accroître la couverture de vos données d’entraînement”. À un moment où l’industrie “se heurte aux limites des données d’entraînement légitimement accessibles”, les données synthétiques sont perçues comme un moyen d’“étendre la durée de vie utilisable de ces données”.

Cependant, Newton-Rex met également en garde contre ses implications plus sombres. “En même temps, je pense que malheureusement, son effet est, au moins en partie, celui du blanchiment de droit d’auteur”, déclare-t-il, concluant que “les deux sont vrais”. Il met en garde contre l’acceptation aveugle des assurances des entreprises d’IA, soulignant que les données synthétiques ne sont “pas une panacée aux questions incroyablement importantes de droit d’auteur”. L’idée que les données synthétiques permettent aux développeurs d’IA de contourner les préoccupations relatives au droit d’auteur est, selon lui, fondamentalement erronée.

Newton-Rex soutient en outre que le cadrage même des données synthétiques, et la façon dont les entreprises d’IA discutent de l’entraînement des modèles, sert à les éloigner des individus dont elles pourraient utiliser le travail. “L’auditeur moyen, s’il entend que ce modèle a été entraîné sur des données synthétiques, est forcément enclin à penser : ‘Oh, d’accord. Eh bien, ce n’est probablement pas le dernier album d’Ed Sheeran, n’est-ce pas ?’”, postule-t-il. Ce récit, soutient-il, “nous éloigne davantage d’une compréhension facile de la façon dont ces modèles sont réellement fabriqués, ce qui est finalement en exploitant le travail de toute une vie des gens”. Il établit une analogie avec le recyclage du plastique, où un conteneur recyclé pourrait avoir été à l’origine un jouet ou un pare-chocs de voiture. L’acte des modèles d’IA de mélanger diverses entrées pour générer de “nouvelles sorties” ne fait rien, maintient-il, pour diminuer leur dépendance au travail humain original.

Pour Newton-Rex, le point essentiel demeure : “Vraiment l’élément absolument critique ici, et il faut juste s’en souvenir, c’est que même dans un monde de données synthétiques, ce qui se passe, c’est que le travail des gens est exploité afin de les concurrencer.”