Reddit bloque Internet Archive pour stopper le scraping de données IA

Arstechnica

Reddit a décidé de bloquer l’Internet Archive (IA) pour l’empêcher d’indexer de manière exhaustive son contenu, invoquant des préoccupations selon lesquelles les entreprises d’intelligence artificielle, déjà restreintes de scraper directement Reddit, auraient plutôt collecté des données à partir des documents archivés de l’IA. Ce changement significatif signifie que la Wayback Machine de l’Internet Archive, qui offrait auparavant un enregistrement fiable des pages Reddit, des profils d’utilisateurs et des commentaires dans le cadre de sa vaste mission de préservation d’internet, n’archivera désormais que des captures d’écran de la page d’accueil de Reddit. Cette réduction drastique de la portée limite efficacement l’utilité de l’archive à un instantané quotidien des publications populaires et des titres d’actualité, ne servant plus de sauvegarde détaillée pour le contenu supprimé, de fenêtre sur diverses sous-cultures Reddit, ou d’enregistrement de l’activité individuelle des utilisateurs.

Bien que Reddit n’ait pas publiquement identifié les entreprises d’IA spécifiques qu’il estime avoir scrapé des données de la Wayback Machine, le porte-parole de l’entreprise, Tim Rathschmidt, a confirmé que Reddit a pris conscience “d’instances où des entreprises d’IA violent les politiques de plateforme, y compris les nôtres, et scrapent des données de la Wayback Machine”. Rathschmidt a suggéré que l’Internet Archive pourrait mettre en œuvre des mesures pour mieux se protéger contre une telle collecte de données par l’IA, ce qui pourrait amener Reddit à reconsidérer ses restrictions. Ces limitations d’accès de l’IA aux données de Reddit seraient en cours d’intensification sur l’ensemble de la plateforme.

Au-delà de la préoccupation immédiate du scraping par l’IA, Reddit saisit également cette opportunité pour aborder ce qu’il décrit comme des problèmes de confidentialité de longue date. L’entreprise soutient que les restrictions sont justifiées car la Wayback Machine archive de manière problématique du contenu que les utilisateurs ont ensuite supprimé. Rathschmidt a déclaré : “Tant qu’ils ne pourront pas défendre leur site et se conformer aux politiques de la plateforme (par exemple, respecter la vie privée des utilisateurs, concernant la suppression de contenu retiré), nous limitons une partie de leur accès aux données Reddit pour protéger les redditors.”

Historiquement, certains Redditors ont utilisé la Wayback Machine pour rechercher des commentaires ou des fils de discussion supprimés. Cependant, les discussions sur les réseaux sociaux indiquent que de nombreux autres outils existent pour faire surface des publications supprimées ou enquêter sur l’activité des utilisateurs, certains suggérant que la Wayback Machine n’était pas toujours la plateforme la plus intuitive à ces fins. Les Redditors se sont également tournés vers des ressources comme l’Internet Archive pendant des périodes de changements significatifs de la plateforme susceptibles d’entraîner la suppression de contenu. Notamment, en 2023, lorsque des modifications de l’API publique de Reddit ont menacé de démanteler des subreddits appréciés, les archives ont joué un rôle crucial dans la préservation du contenu avant qu’il ne soit perdu.

L’Internet Archive n’a pas encore indiqué s’il cherche activement des solutions pour faire lever les restrictions de Reddit. Mark Graham, directeur de la Wayback Machine, a noté que l’IA entretient “une relation de longue date avec Reddit” et reste engagée dans des “discussions continues sur cette question”.

Il semble fort probable que les actions de Reddit soient motivées par des raisons financières, visant à empêcher les entreprises d’IA d’exploiter son contenu via des archives tierces et à encourager plutôt des accords de licence directs plus lucratifs. Reddit a récemment conclu des accords importants avec des acteurs majeurs comme OpenAI et Google. Bien que les termes de l’accord avec OpenAI restent confidentiels, l’accord avec Google aurait été évalué à 60 millions de dollars. Globalement, Reddit anticipe générer plus de 200 millions de dollars grâce à de tels accords de licence au cours des trois prochaines années, soulignant les enjeux élevés liés au contrôle de l’accès à son vaste trésor de données générées par les utilisateurs.