OpenAI refuse 120 millions de logs ChatGPT au NYT dans un procès crucial
OpenAI est engagé dans un litige juridique important avec le New York Times, marqué par une bataille contentieuse concernant l’accès à des millions de conversations d’utilisateurs de ChatGPT. Au cœur du dernier désaccord se trouve la demande du journal de fouiller dans un nombre sans précédent de 120 millions de logs de discussion dans le cadre de son procès en cours pour violation de droits d’auteur contre le géant de l’intelligence artificielle. OpenAI, cependant, s’y oppose, proposant plutôt un sous-ensemble significativement plus petit de 20 millions de logs.
Le Times recherche ces données étendues pour déterrer d’éventuelles infractions au droit d’auteur impliquant ses articles et pour documenter méticuleusement comment de tels incidents ont pu évoluer sur une période de 23 mois. OpenAI, d’autre part, avertit que céder à la demande radicale du journal présente des risques techniques et de confidentialité substantiels. L’entreprise explique que ces logs de discussion sont en grande partie non structurés, dépassant souvent 5 000 mots chacun, et contiennent fréquemment des informations personnelles très sensibles, y compris des adresses et des mots de passe.
Avant que toute donnée ne puisse être partagée, ces logs nécessiteraient un examen manuel méticuleux et une rédaction pour supprimer les détails sensibles. OpenAI estime que la préparation même des 20 millions de logs qu’elle a proposés prendrait environ douze semaines, tandis que le traitement des 120 millions complets consommerait environ 36 semaines. Ce processus laborieux, note l’entreprise, exigerait des ressources humaines et techniques importantes, car les données doivent être extraites d’un système hors ligne. OpenAI souligne également que la rétention des chats supprimés pendant de longues périodes, comme l’implique la demande du Times, pourrait créer de nouvelles vulnérabilités aux fuites de données.
Le Times a fermement rejeté la limite proposée par OpenAI, affirmant qu’un échantillon plus petit serait insuffisant pour démontrer des violations systématiques du droit d’auteur et des tendances à long terme, insistant sur un accès complet pour bâtir son dossier. En réponse, OpenAI cite l’informaticien Taylor Berg-Kirkpatrick, qui soutient la validité statistique d’un échantillon de 20 millions de logs. L’entreprise d’IA soutient qu’étendre la recherche au-delà de cela serait disproportionné et prolongerait inutilement les procédures judiciaires.
Ce désaccord actuel se déroule dans le contexte d’une importante ordonnance du tribunal émise en juin 2025. Cette ordonnance a exigé qu’OpenAI conserve toutes les conversations ChatGPT, y compris celles que les utilisateurs avaient supprimées. La directive faisait suite aux accusations du Times et d’autres éditeurs selon lesquelles OpenAI détruisait des preuves par le biais de processus de suppression automatisés.
OpenAI a critiqué avec véhémence cette ordonnance, la décrivant comme une grave invasion de la vie privée de centaines de millions d’utilisateurs. L’entreprise a fait valoir devant le tribunal que de nombreux chats contiennent des informations “profondément personnelles”, allant des données financières aux questions privées telles que la planification de mariages. En outre, les clients commerciaux utilisant l’API d’OpenAI pour traiter des données d’entreprise sensibles sont également impactés. OpenAI soutient que l’ordonnance la force à violer ses propres politiques de confidentialité et érode fondamentalement la confiance des utilisateurs.
Bien que le juge ait trouvé des raisons de croire que des preuves pourraient être perdues par suppression et ait ordonné la conservation complète des données par précaution, OpenAI conteste l’allégation de destruction délibérée de preuves. L’entreprise maintient qu’il n’y a aucune preuve que le contenu contrefaisant ait été délibérément supprimé, que ce soit automatiquement ou manuellement, et rejette l’idée que les utilisateurs suppriment massivement des chats pour dissimuler des risques juridiques comme étant spéculative.
La nouvelle de la décision du tribunal a rapidement retenti sur les plateformes de médias sociaux, déclenchant une préoccupation généralisée parmi les utilisateurs. Des experts sur LinkedIn et X (anciennement Twitter) ont émis des avertissements concernant de nouveaux risques de sécurité et ont déconseillé de partager des données sensibles avec ChatGPT. Certaines entreprises ont même interprété l’ordonnance comme une potentielle rupture de contrat par OpenAI, craignant que les données confidentielles ne soient désormais stockées plus longtemps et potentiellement exposées à des tiers.