Cloudflare vs. Perplexity: Guerre d'IA et Risques Légaux de Scraping Web
Le paysage numérique est actuellement aux prises avec un différend significatif entre le géant de l’infrastructure internet Cloudflare et la startup d’IA Perplexity, centré sur des allégations de scraping web illicite. Cette «guerre du scraping web» a de profondes implications pour l’avenir du développement de l’intelligence artificielle, la monétisation du contenu et l’éthique même de l’acquisition de données à l’ère numérique.
Cloudflare a lancé la discussion publique le 4 août 2025, avec un article de blog accusant Perplexity, un «moteur de réponses» alimenté par l’IA, de contourner les restrictions robots.txt
pour scraper du contenu. Les fichiers robots.txt
sont une norme web établie de longue date, introduite en 1994 et formellement standardisée en 2022, permettant aux sites web de signaler s’ils souhaitent que leur contenu soit indexé par les moteurs de recherche ou les crawlers d’IA. Cloudflare allègue que Perplexity utilise initialement ses agents utilisateurs déclarés (comme PerplexityBot), mais lorsqu’il est bloqué, il recourt à l’«exploration furtive» en masquant son identité, en modifiant les agents utilisateurs, en changeant les adresses IP source, et parfois même en ne parvenant pas du tout à récupérer les fichiers robots.txt
. Ce comportement, selon Cloudflare, est incompatible avec la «nétiquette» web établie et les normes éthiques qui ont historiquement régi les interactions sur internet. L’enquête de Cloudflare a été déclenchée par de nombreuses plaintes de ses clients qui avaient explicitement interdit l’activité d’exploration de Perplexity dans leurs fichiers robots.txt
et mis en œuvre des règles de pare-feu d’application web (WAF), mais ont néanmoins constaté que leur contenu était accédé par Perplexity. Cloudflare a depuis retiré Perplexity de la liste des «bots vérifiés» et a mis en œuvre de nouvelles règles pour bloquer son exploration furtive.
Perplexity a nié avec véhémence les accusations de Cloudflare, qualifiant leur analyse d’«embarrassante» et de «disqualifiante». Perplexity soutient que les systèmes de Cloudflare sont «fondamentalement inadéquats pour distinguer entre les assistants IA légitimes et les menaces réelles». La startup d’IA affirme que son système fonctionne fondamentalement différemment des crawlers web traditionnels; au lieu d’indexer systématiquement de vastes portions du web, il récupère les pages web uniquement en réponse à des questions spécifiques de l’utilisateur, agissant comme un «agent déclenché par l’utilisateur». Perplexity affirme qu’il ne stocke ni n’indexe le contenu à l’avance et ne conserve ni n’utilise le contenu récupéré pour entraîner ses modèles.
Ce différend n’est pas un incident isolé pour Perplexity. La société est déjà impliquée dans des batailles juridiques avec de grands éditeurs. En octobre 2024, Dow Jones (société mère de The Wall Street Journal et New York Post) a intenté un procès contre Perplexity, alléguant une «contrefaçon massive» de droits d’auteur en copiant leur contenu pour construire son index de Génération Augmentée par Récupération (RAG). Le procès affirme que cette pratique permet aux utilisateurs de Perplexity de «sauter les liens» et d’accéder directement aux résumés, réduisant ainsi le trafic et les revenus des éditeurs. De même, la BBC a envoyé une lettre à Perplexity en juin 2025, menaçant d’une action en justice pour avoir scrapé son contenu sans permission et exigeant une compensation ou la suppression des données. La BBC affirme avoir des preuves que le modèle de Perplexity a été entraîné en utilisant son contenu et que des parties de son contenu ont été reproduites textuellement, entrant directement en concurrence avec ses services. Perplexity, à son tour, a qualifié les affirmations de la BBC de «manipulatrices et opportunistes» et d’indicatives d’une «compréhension fondamentale erronée» de la technologie et du droit de la propriété intellectuelle. Malgré ces défis juridiques, Perplexity a également conclu des accords de partage de revenus avec certains éditeurs, y compris Time, Fortune et Der Spiegel, dans le but de répondre aux préoccupations concernant le contenu.
Les implications plus larges de cette «guerre du scraping web» sont significatives pour la relation évolutive entre les développeurs d’IA et les créateurs de contenu. La montée en puissance des crawlers d’IA qui résument le contenu sans générer de trafic ou de revenus directs pour les éditeurs menace le modèle économique dominant du web. Les chercheurs en cybersécurité anticipent une «course aux armements» croissante entre ceux qui protègent le contenu et les entreprises d’IA qui recherchent des données. Bien que les limites légales du scraping de contenu et du contournement de robots.txt
restent floues, les découvertes de Cloudflare pourraient exposer Perplexity à d’autres poursuites. Ce conflit en cours souligne le besoin urgent de directives éthiques claires et potentiellement de nouveaux cadres juridiques pour régir la manière dont les systèmes d’IA accèdent et utilisent les données en ligne, équilibrant l’innovation et les droits des créateurs de contenu.