Reddit restreint l'accès à Wayback Machine à cause du "scraping" par IA

Decoder

Dans une démarche significative pour affirmer son contrôle sur ses vastes archives de contenu, Reddit a fortement réduit l’accès de l’Internet Archive à sa plateforme, citant l’utilisation abusive par les entreprises d’intelligence artificielle. Avec effet immédiat, la populaire plateforme de médias sociaux limitera la Wayback Machine, une archive numérique d’internet, à n’indexer que la page d’accueil de Reddit. Cette nouvelle politique empêche la Wayback Machine d’accéder aux publications d’utilisateurs individuels, aux commentaires et aux pages de profil, qui formaient auparavant un ensemble de données riche et publiquement disponible.

Selon Tim Rathschmidt, porte-parole de Reddit, cette décision répond directement aux cas où des entreprises d’IA auraient extrait du contenu de Reddit via la Wayback Machine, violant ainsi les conditions d’utilisation de la plateforme. Reddit aurait informé l’Internet Archive des changements imminents avant leur mise en œuvre.

Cette action est la dernière étape de la campagne agressive de Reddit visant à empêcher le “scraping” de données non autorisé et l’utilisation gratuite de son contenu par les entreprises d’IA. La société a clairement exprimé sa position au cours de la dernière année, soulignant la valeur propriétaire des conversations et des informations partagées sur sa plateforme. En 2024, Reddit a notamment signé des accords de licence avec les géants de l’industrie de l’IA, Google et OpenAI, leur accordant un accès officiel à ses données étendues pour la formation de leurs grands modèles linguistiques. Parallèlement, la société a commencé à bloquer les moteurs de recherche qui ne concluent pas d’accords payants similaires.

Soulignant davantage son engagement à protéger ses données, Reddit a également déposé une plainte contre le développeur d’IA Anthropic, accusant l’entreprise de “scraping” de données non autorisé à des fins de formation de son IA. Ces mesures collectives mettent en évidence une tension croissante entre les plateformes de contenu, qui génèrent et hébergent de vastes quantités de données générées par l’homme, et les entreprises d’IA, dont les modèles dépendent fortement de ces données pour leur développement et leur fonctionnalité.

La restriction sur la Wayback Machine, bien que visant les entreprises d’IA, soulève également des questions sur les implications plus larges pour l’archivage numérique et l’accessibilité du contenu historique d’internet. La mission de l’Internet Archive est de préserver le web pour les générations futures, et la décision de Reddit signifie qu’une partie substantielle du discours public devient moins facilement disponible pour un examen historique via cet outil d’archivage particulier. À mesure que la technologie de l’IA continue d’évoluer, la bataille pour la propriété des données, l’accès et une juste compensation reste un défi central et déterminant pour l’économie numérique.