Reddit bloque Wayback Machine: L'IA pille les données
Reddit a initié un blocage significatif contre la Wayback Machine d’Internet Archive, l’empêchant d’indexer la grande majorité du contenu de la plateforme de médias sociaux. Cette action décisive intervient après que Reddit a identifié que des entreprises d’intelligence artificielle contournaient, selon les rapports, ses politiques de licence en extrayant de précieuses données d’utilisateurs des archives numériques stockées par l’organisation à but non lucratif.
Cette mesure souligne la stratégie évolutive de Reddit visant à affirmer un contrôle accru sur ses données propriétaires, en particulier à une époque où de telles informations sont très convoitées pour l’entraînement des modèles d’IA. Bien que Reddit se soit montré ouvert à ce que les entreprises d’IA utilisent son vaste contenu généré par les utilisateurs, il insiste sur le fait qu’un tel accès doit être rémunéré. La société avait précédemment indiqué qu’elle ne restreindrait pas les “acteurs de bonne foi” comme Internet Archive, mais sa position a maintenant changé. Reddit estime désormais que certaines entités, peut-être involontairement, facilitent le contournement par les entreprises d’IA des accords de licence directs et des frais associés. Ce changement abrupt met en lumière l’importance croissante de la licence de données en tant que source de revenus critique dans l’industrie de l’IA en pleine expansion.
Internet Archive, une organisation à but non lucratif renommée, se consacre à la construction d’une bibliothèque numérique complète de contenu en ligne, englobant des milliards de pages web ainsi que des millions de livres, de vidéos et de logiciels. Son outil phare, la Wayback Machine, permet aux utilisateurs de capturer et de revisiter des instantanés historiques de pages web, les préservant exactement tels qu’ils apparaissaient à des dates spécifiques. Cette fonctionnalité a longtemps servi de ressource vitale pour les chercheurs, les historiens et le grand public cherchant à accéder au contenu internet archivé.
Reddit affirme posséder des preuves indiquant que certaines entreprises d’IA exploitent la Wayback Machine pour contourner ses politiques établies, et ainsi extraire du contenu généré par les utilisateurs sans autorisation appropriée. Dans un communiqué, un porte-parole de Reddit a expliqué : “Internet Archive fournit un service au web ouvert, mais nous avons été informés de cas où des entreprises d’IA violent les politiques de la plateforme, y compris les nôtres, et extraient des données de la Wayback Machine.” Le porte-parole a ajouté que tant qu’Internet Archive ne pourra pas “défendre son site et se conformer aux politiques de la plateforme (par exemple, respecter la confidentialité des utilisateurs, concernant la suppression de contenu retiré)”, Reddit limitera l’accès à ses données pour protéger ses utilisateurs.
Les nouvelles restrictions signifient que la Wayback Machine ne pourra plus explorer les pages de détails des publications, les commentaires individuels ou les profils d’utilisateurs. Ses capacités d’indexation seront désormais confinées uniquement à la page d’accueil de Reddit. Ces limitations ont commencé à être mises en œuvre le 11 août 2025, Reddit confirmant avoir averti Internet Archive des changements imminents. Internet Archive n’a pas immédiatement répondu aux demandes de commentaires concernant les actions de Reddit.
Cette action est la dernière d’une série de mesures prises par Reddit ces dernières années pour renforcer son emprise sur l’accès à ses vastes réserves de données. Bien que la société reste ouverte à l’octroi de licences pour ses données, elle a intensifié ses efforts pour réprimer les entités qui tentent d’y accéder sans compensation. Cette stratégie a déjà abouti à des accords de plusieurs millions de dollars avec des acteurs technologiques majeurs, notamment Google et OpenAI. Le partenariat avec Google, par exemple, englobe à la fois l’indexation de recherche et la fourniture de données d’entraînement pour l’IA, un accord qui a été suivi par le blocage par Reddit d’autres moteurs de recherche afin qu’ils ne fassent pas apparaître ses publications récentes dans leurs résultats. De plus, en juin, Reddit a intenté une action en justice contre la startup d’IA Anthropic, l’accusant d’extraction de données non autorisée, soulignant davantage son engagement à faire respecter ses politiques d’accès aux données.