Cloudflare accuse Perplexity de 'crawl furtif' sur des sites bloqués

Marketingaiinstitute

Cloudflare Accuse le Moteur de Recherche IA Perplexity de “Crawl Furtif”

Le champ de bataille numérique concernant la manière dont les entreprises d’intelligence artificielle accèdent et utilisent le contenu en ligne a considérablement escaladé, le géant de l’infrastructure internet Cloudflare accusant publiquement le moteur de réponses alimenté par l’IA Perplexity de s’engager dans un “crawl furtif” pour contourner les restrictions d’accès aux sites web. Ce différend met en lumière une tension fondamentale entre le désir des créateurs de contenu de contrôler leur propriété intellectuelle et la soif de données des entreprises d’IA.

Les allégations de Cloudflare, détaillées dans un récent billet de blog, affirment que Perplexity a utilisé des tactiques trompeuses pour accéder au contenu de sites web qui avaient explicitement bloqué ses crawlers. L’entreprise prétend que lorsque les bots déclarés de Perplexity, “PerplexityBot” et “Perplexity-User”, rencontrent des blocages réseau ou des directives robots.txt – le protocole standard pour indiquer aux crawlers web ce qu’il ne faut pas accéder – les systèmes de la firme d’IA obscurciraient prétendument leur identité. Cela implique de modifier les agents utilisateurs pour usurper l’identité de navigateurs génériques comme Google Chrome sur macOS, de faire pivoter les adresses IP et de changer les numéros de système autonome (ASN) pour échapper à la détection. Cloudflare a signalé avoir observé des millions de requêtes quotidiennes provenant de ces “agents furtifs” tentant de contourner les protections anti-bot standard.

Les accusations découlent des plaintes de clients de Cloudflare qui ont constaté que Perplexity accédait toujours à leur contenu malgré la mise en œuvre de règles robots.txt et de blocages par pare-feu d’application web (WAF). Pour vérifier ces allégations, Cloudflare a mené des tests contrôlés sur des domaines nouvellement créés et non indexés avec des interdictions de crawl strictes. Malgré ces blocages explicites, Perplexity aurait pu récupérer et résumer le contenu de ces sites restreints, ce qui indique un contournement délibéré des protocoles web établis. Cloudflare a souligné que l’internet est bâti sur la confiance, et que les crawlers légitimes sont censés être transparents et adhérer aux directives des sites web. En réponse au comportement observé, Cloudflare a retiré Perplexity de la liste des bots vérifiés et a mis à jour ses règles gérées pour bloquer cette activité de crawl furtif. Cette mesure s’aligne sur la plus vaste initiative de Cloudflare “Jour de l’Indépendance du Contenu”, lancée en juillet, qui vise à donner aux éditeurs un plus grand contrôle sur les crawlers IA, y compris des options pour bloquer l’accès ou même facturer le scraping de contenu.

Perplexity, cependant, a nié avec véhémence les accusations de Cloudflare, rejetant le rapport comme un “argument de vente” “embarrassant” et “disqualifiant”. L’entreprise d’IA soutient que Cloudflare méconnaît fondamentalement la nature des assistants IA modernes, arguant que leur système ne s’engage pas dans un crawl à grande échelle et indiscriminé comme les moteurs de recherche traditionnels. Au lieu de cela, Perplexity affirme que sa plateforme récupère des pages web “à la demande” en réponse à des questions spécifiques de l’utilisateur, agissant comme un agent initié par l’utilisateur plutôt qu’un bot autonome. Perplexity prétend que les systèmes de Cloudflare sont inadéquats pour distinguer entre les assistants IA légitimes et le scraping malveillant, ce qui conduit à une classification erronée du trafic responsable et initié par l’utilisateur. L’entreprise conteste également que l’agent utilisateur “caché” spécifique identifié par Cloudflare leur appartienne ou qu’il ait accédé à un quelconque contenu.

Ce clash souligne les tensions croissantes entre les développeurs d’IA et les créateurs de contenu concernant l’acquisition de données et les droits de propriété intellectuelle. Perplexity a déjà fait face à des allégations similaires de scraping web et d’utilisation de contenu non éthiques par le passé, y compris des menaces d’action en justice de la part d’entités comme la BBC et des accusations de plagiat de publications telles que Wired et Forbes. Alors que les modèles d’IA continuent d’évoluer et de s’intégrer plus profondément dans la manière dont les utilisateurs accèdent à l’information, le débat sur la juste compensation, les pratiques de données transparentes et la définition même du “crawl web” est appelé à s’intensifier, potentiellement remodelant les règles fondamentales de l’internet ouvert.