Cloudflare vs Perplexity : La guerre du scraping IA déclenche des risques légaux
Un conflit significatif a éclaté entre le géant de l’infrastructure internet Cloudflare et la startup de recherche IA Perplexity, centré sur des allégations de pratiques de scraping web illicites qui comportent des implications substantielles pour l’avenir de l’intelligence artificielle et la propriété du contenu. Cloudflare a publiquement accusé Perplexity de contourner les restrictions web standard, y compris les directives robots.txt
, pour “explorer furtivement” des sites web et collecter du contenu sans permission.
Le litige s’est intensifié suite à l’annonce de Cloudflare le 5 août 2025, qu’il retirerait le crawler de Perplexity de la liste des “bots vérifiés” et bloquerait activement ses “bots furtifs” d’accéder aux quelque 24 millions de sites web protégés par Cloudflare. L’enquête de Cloudflare, déclenchée par de nombreuses plaintes de clients, a révélé que les agents utilisateurs déclarés de Perplexity (comme PerplexityBot
et Perplexity-User
) tenteraient initialement d’explorer des sites. Cependant, lorsqu’ils rencontraient un blocage réseau ou une exclusion robots.txt
, les systèmes de Perplexity auraient obscurci leur identité en modifiant les agents utilisateurs, en changeant les numéros de système autonome (ASN) source et en se faisant passer pour des navigateurs génériques comme Google Chrome sur macOS afin de contourner les restrictions. Cette activité d’“exploration furtive” a été observée sur des dizaines de milliers de domaines, générant des millions de requêtes quotidiennes.
Cloudflare a souligné qu’internet est bâti sur la confiance, et que les crawlers légitimes sont censés être transparents, servir un objectif clair et, surtout, suivre les directives des sites web. Leur décision de bloquer Perplexity souligne une tension croissante entre la demande insatiable des entreprises d’IA pour des données d’entraînement et les droits et préférences des créateurs de contenu. Cloudflare a également récemment introduit des fonctionnalités permettant à ses clients de bloquer tous les crawlers d’IA et un programme “Paiement par exploration”, permettant aux éditeurs de fixer des tarifs pour les entreprises d’IA cherchant à obtenir une licence pour leur contenu.
Perplexity, un “moteur de réponses” alimenté par l’IA, évalué à 18 milliards de dollars en juillet 2025, a rapidement pris de l’ampleur en exploitant de grands modèles linguistiques pour synthétiser des réponses avec des citations de sources. Cependant, ce n’est pas la première fois que la startup est confrontée à des accusations concernant ses méthodes d’acquisition de données. Des organisations médiatiques majeures, y compris Dow Jones, The New York Times et la BBC, ont précédemment menacé d’intenter des actions en justice ou ont déposé des plaintes contre Perplexity, alléguant une violation du droit d’auteur, une utilisation non autorisée de contenu et la reproduction de journalisme textuel sans permission ni attribution appropriée. News Corp, société mère de Dow Jones et du New York Post, a déposé une plainte pour violation du droit d’auteur en octobre 2024, accusant Perplexity de “parasitisme massif” et de détournement de trafic et de revenus. La BBC, en juin 2025, a menacé de litige, affirmant que le modèle d’IA de Perplexity avait été entraîné sur son contenu et a demandé une injonction et une compensation financière.
En réponse aux allégations de Cloudflare, le porte-parole de Perplexity, Jesse Dwyer, a rejeté le rapport comme un “argument de vente”, affirmant que les captures d’écran fournies par Cloudflare ne montraient qu’aucun contenu n’avait réellement été accédé. Perplexity a également précédemment défendu ses pratiques en affirmant sa conformité aux normes de l’industrie et en arguant que sa plateforme utilise des “agents pilotés par l’utilisateur” qui ne récupèrent du contenu que lorsqu’un utilisateur pose une question spécifique, et que les données récupérées ne sont ni stockées ni utilisées pour entraîner des modèles d’IA. Le PDG de Perplexity, Aravind Srinivas, a publiquement défendu le scraping comme essentiel pour l’entraînement des modèles d’IA. La société a également conclu des accords de licence, comme avec Gannett, pour accéder légalement au contenu de plus de 200 publications.
Cette “guerre de scraping web” croissante met en évidence les limites des protocoles web actuels comme robots.txt
face aux scrapers déterminés et signale un moment charnière où la nature ouverte du web se heurte aux exigences de l’IA. Les experts suggèrent que cet incident pourrait conduire à des contrôles plus stricts de la part des fournisseurs d’infrastructure web et potentiellement intensifier les discussions politiques et l’examen réglementaire autour des pratiques transparentes et des accords d’accès aux données exécutoires pour l’IA. Le débat souligne le besoin urgent de lignes directrices et de protections plus claires dans le domaine de l’IA, qui progresse rapidement, en équilibrant l’innovation et les droits de propriété intellectuelle.