Cloudflare accuse Perplexity de tactiques de web crawling furtives
Le géant de l’infrastructure internet Cloudflare a accusé le moteur de recherche IA Perplexity d’employer des “tactiques furtives” pour contourner les instructions explicites des propriétaires de sites web contre le web crawling, selon un rapport publié le 4 août 2025. Ces allégations, détaillées dans un article de blog de Cloudflare, affirment que Perplexity utilise des crawlers non déclarés qui imitent le trafic de navigateur ordinaire pour scraper du contenu de sites qui ont bloqué ses bots officiels via les fichiers robots.txt.
Cloudflare, qui gère une partie significative du trafic web, a déclaré avoir détecté ces opérations secrètes en surveillant des schémas inhabituels dans les agents utilisateurs et les adresses IP. Les crawlers déclarés de Perplexity, tels que “PerplexityBot”, sont souvent bloqués par les sites web. En réponse, Cloudflare allègue que Perplexity a pivoté vers des méthodes plus subreptices, y compris la rotation des adresses IP à travers divers fournisseurs et l’altération des agents utilisateurs pour apparaître comme des navigateurs Chrome standard sur macOS, déguisant ainsi efficacement le scraping automatisé en visites humaines. Matthew Prince, PDG de Cloudflare, a comparé le comportement de Perplexity à celui de “hackers nord-coréens”, soulignant la rupture de confiance dans l’étiquette internet.
Ce n’est pas la première fois que Perplexity fait face à de telles accusations. Des rapports antérieurs de Wired et Forbes ont également allégué des pratiques de scraping similaires malgré des blocages explicites. La controverse met en lumière une tension croissante entre les entreprises d’IA, qui nécessitent de vastes quantités de données pour leurs modèles, et les éditeurs cherchant à protéger leur propriété intellectuelle et à contrôler la manière dont leur contenu est utilisé. La question du scraping basé sur le consentement a dégénéré en défis juridiques, la BBC ayant envoyé une lettre de mise en demeure à Perplexity en juin 2025, exigeant la suppression du contenu scrapé et une compensation. Dow Jones a également engagé des poursuites pour des préoccupations similaires.
Le fichier “robots.txt” est une norme web établie de longue date, conçue pour communiquer les préférences des propriétaires de sites web quant à la manière dont les web crawlers doivent interagir avec leurs sites. Bien qu’il ne soit pas juridiquement contraignant, il est largement considéré comme une ligne directrice éthique pour le web crawling. Cloudflare soutient que les actions présumées de Perplexity violent ces normes établies de web crawling.
En réponse à ces découvertes et aux préoccupations croissantes, Cloudflare a retiré Perplexity de sa liste de “bots vérifiés” et a mis en œuvre de nouvelles règles gérées pour bloquer automatiquement cette activité de crawling furtif. Cloudflare évolue également vers une initiative “Pay per Crawl” (Payer par Exploration), qui bloquera les crawlers IA par défaut pour les nouveaux sites de son réseau, sauf autorisation explicite, et permettra potentiellement aux propriétaires de contenu de monétiser l’accès à leurs données pour l’entraînement d’IA. Ce changement vise à donner plus de contrôle aux éditeurs et à établir un modèle économique plus transparent pour l’acquisition de données IA.
Perplexity, cependant, a nié les affirmations de Cloudflare, un porte-parole déclarant qu’“aucun contenu n’a été réellement consulté” et suggérant que le trafic en question ne provenait pas de leurs systèmes. Néanmoins, ce litige en cours souligne le paysage éthique et juridique complexe qui émerge à mesure que les technologies d’IA continuent d’évoluer et de remodeler la façon dont l’information est consultée et utilisée en ligne.