Cloudflare accuse Perplexity de tactiques secrètes de scraping IA

Knowtechie

Dans un litige qui s’intensifie rapidement, le géant de l’infrastructure internet Cloudflare a publiquement accusé le moteur de recherche IA Perplexity d’employer des tactiques de « crawling furtif » pour contourner les restrictions des sites web et extraire du contenu. Les allégations, détaillées dans un article de recherche publié par Cloudflare le lundi 5 août 2025, ont ravivé un nouveau débat sur l’éthique de la collecte de données par l’IA et le contrôle que les créateurs de contenu ont sur leurs actifs numériques.

Les affirmations de Cloudflare découlent d’une enquête initiée après que de nombreux clients ont signalé que les bots IA de Perplexity continuaient d’accéder à leurs sites web malgré des blocages explicites via les fichiers robots.txt et d’autres règles au niveau du réseau. Selon Cloudflare, les crawlers de Perplexity, s’identifiant initialement avec des agents utilisateurs standard comme « PerplexityBot », obscurciraient prétendument leur identité face à un blocage réseau, tentant de contourner les préférences du site web.

Les tactiques alléguées incluent l’usurpation d’identité de navigateurs légitimes, tels que Google Chrome sur macOS, et la rotation d’adresses IP et de numéros de système autonome (ASN) pour échapper à la détection. Les chercheurs de Cloudflare ont observé cette activité sur « des dizaines de milliers de domaines et des millions de requêtes par jour », opérant en dehors des plages IP officiellement déclarées par Perplexity. Pour étayer ses conclusions, Cloudflare a même créé des domaines de test configurés pour refuser l’accès aux bots, que les crawlers de Perplexity auraient tout de même réussi à accéder et à récupérer des informations. Le PDG de Cloudflare, Matthew Prince, est allé jusqu’à comparer les actions présumées de Perplexity à celles de « hackers nord-coréens ». En réponse à ses découvertes, Cloudflare a retiré Perplexity de sa liste de bots vérifiés et a mis en œuvre de nouvelles heuristiques de règles gérées pour détecter et bloquer un tel crawling furtif sur son réseau.

Perplexity, cependant, a nié avec véhémence les accusations, rejetant le rapport de Cloudflare comme un « argument de vente ». Jesse Dwyer, porte-parole de Perplexity, a affirmé que le bot identifié par Cloudflare n’était pas associé à leur entreprise et a déclaré que les captures d’écran fournies par Cloudflare ne démontraient aucun accès réel au contenu. Perplexity soutient que Cloudflare comprend fondamentalement mal le modèle opérationnel des assistants IA modernes. La startup IA a déclaré que sa plateforme repose sur des « agents pilotés par l’utilisateur » qui récupèrent du contenu uniquement lorsqu’un utilisateur pose une question spécifique nécessitant des informations en temps réel, soulignant que ces données récupérées ne sont ni stockées ni utilisées pour entraîner des modèles IA. En outre, Perplexity a accusé Cloudflare de mal attribuer le trafic automatisé d’un service tiers, BrowserBase, à ses systèmes, qualifiant cela d’« échec fondamental de l’analyse de trafic ».

Ce litige très médiatisé souligne la tension croissante entre les entreprises d’IA, qui dépendent d’énormes quantités de données web pour leurs fonctionnalités, et les opérateurs de sites web qui s’efforcent de maintenir le contrôle sur leur propriété intellectuelle et la distribution de contenu. La dépendance des outils IA à la Génération Augmentée par Récupération (RAG) signifie un besoin continu d’informations actuelles, ce que certains éditeurs considèrent comme une « relation parasitaire menaçant les revenus ». Les considérations éthiques entourant l’approvisionnement en données IA, la transparence du comportement des bots et l’adhésion aux standards web comme robots.txt sont au premier plan de ce débat. Cloudflare a récemment lancé son initiative « Jour de l’Indépendance du Contenu », visant à permettre à plus de 2,5 millions de sites web de bloquer les crawlers d’entraînement IA et d’affirmer un plus grand contrôle sur leur contenu. Ce n’est pas la première fois que Perplexity fait l’objet d’un examen minutieux de ses pratiques d’acquisition de contenu, avec des allégations antérieures incluant le plagiat et le contournement des paywalls. La controverse actuelle met en évidence le défi complexe d’équilibrer l’innovation de l’IA avec les droits et les préférences des éditeurs web dans le paysage numérique en évolution.