Reddit bloque Internet Archive: la peur de l'IA ou la monétisation?

Theverge

Reddit a annoncé une restriction significative de la capacité d’Internet Archive à indexer sa plateforme, une mesure motivée par des inquiétudes selon lesquelles des entreprises d’intelligence artificielle extrairaient illégalement des données de Reddit via la Wayback Machine. Avec effet immédiat, la populaire plateforme de médias sociaux bloquera en grande partie Internet Archive pour le crawl des pages de détails de publications, des commentaires d’utilisateurs et des profils individuels. Le seul contenu qui restera accessible pour l’archivage est la page d’accueil de Reddit.com, ce qui signifie qu’Internet Archive sera principalement limité à documenter les titres de presse et les publications qui ont gagné en importance un jour donné.

Selon Tim Rathschmidt, un porte-parole de Reddit, la décision découle d’instances observées où des entreprises d’IA ont violé les politiques de la plateforme, y compris celles de Reddit, en extrayant des données de la Wayback Machine. Tout en reconnaissant le rôle vital d’Internet Archive dans la préservation du web ouvert, Reddit soutient que tout son contenu ne devrait pas être archivé d’une manière qui facilite un tel abus. Rathschmidt a déclaré que jusqu’à ce qu’Internet Archive puisse défendre adéquatement son site et assurer la conformité avec les politiques de la plateforme — spécifiquement en ce qui concerne la confidentialité des utilisateurs et le traitement approprié du contenu supprimé — Reddit restreindra l’accès à ses données pour protéger ses utilisateurs.

La mise en œuvre de ces nouvelles limites a commencé le 11 août 2025, Reddit confirmant avoir informé Internet Archive à l’avance des changements. Cette dernière restriction marque un nouveau chapitre dans les efforts continus de Reddit pour contrôler l’accès à son vaste trésor de contenu généré par les utilisateurs, en particulier alors que les entreprises d’IA ont intensifié leurs efforts de collecte de données. La plateforme a un historique documenté de restriction de l’accès aux outils d’extraction de données automatisée, signalant souvent une volonté de fournir de telles données uniquement dans le cadre d’accords commerciaux.

En effet, Reddit a activement élaboré des stratégies autour de la valeur de ses données dans le paysage en plein essor de l’IA. Au début de l’année dernière, la société a conclu un accord notable avec Google, accordant au géant de la technologie l’accès au contenu de Reddit pour Google Search et l’entraînement de modèles d’IA. Quelques mois plus tard, Reddit a commencé à bloquer les principaux moteurs de recherche pour le crawl de ses données, à moins qu’ils ne concluent des accords de paiement similaires. La société a également attribué ses controversées modifications de l’API de 2023, qui ont conduit à des protestations généralisées et à la fermeture de plusieurs applications tierces populaires, à l’abus de ces API pour l’entraînement de modèles d’IA.

La monétisation de ses données à des fins d’IA continue d’être un thème central pour Reddit. Au-delà de son partenariat avec Google, la société a également conclu un accord d’IA avec OpenAI. Cependant, sa position contre l’utilisation non autorisée des données reste ferme, comme en témoigne une plainte déposée en juin contre Anthropic. Reddit allègue qu’Anthropic a continué à extraire des données de sa plateforme malgré des assurances antérieures de cesser de telles activités.

Internet Archive, dont la mission est de maintenir un registre numérique des sites web et autres artefacts culturels, n’a pas immédiatement commenté les nouvelles restrictions de Reddit. Ce développement souligne la tension croissante entre les principes de préservation du web ouvert et l’impératif commercial des plateformes cherchant à contrôler et monétiser leurs données à l’ère de l’IA générative.