Cloudflare accuse Perplexity de crawling web secret

Decoder

Le champ de bataille numérique entre le géant de l’infrastructure internet Cloudflare et le moteur de recherche IA Perplexity s’est intensifié, Cloudflare accusant publiquement Perplexity de crawler secrètement des sites web malgré des blocages explicites. Ce différend croissant met en lumière les tensions grandissantes concernant l’éthique du scraping de données et l’évolution des règles d’internet à l’ère de l’intelligence artificielle.

Le conflit a éclaté le 4 août 2025, lorsque Cloudflare a publié un article de blog détaillé alléguant que Perplexity violait les standards web établis. L’enquête de Cloudflare a été déclenchée par des plaintes de clients, où les propriétaires de sites web ont observé que leur contenu était toujours accédé par Perplexity même après avoir explicitement bloqué les crawlers officiels du service d’IA, “PerplexityBot” et “Perplexity-User”, via des fichiers robots.txt ou des pare-feu d’applications web (WAFs).

Cloudflare affirme que Perplexity utilise une “approche à deux volets” pour contourner ces restrictions. Lorsque ses bots déclarés sont bloqués, la société déploierait prétendument des crawlers non déclarés qui se font passer pour des navigateurs web standards, tels que Chrome sur macOS, en alternant des adresses IP non listées et en modifiant leurs systèmes autonomes (ASNs) sources. Cloudflare a mené des expériences contrôles sur de nouveaux domaines non indexés avec des règles strictes de robots.txt et de pare-feu, constatant que Perplexity pouvait toujours résumer du contenu secret placé derrière ces restrictions. Le rapport de Cloudflare a indiqué que ce comportement de “crawling furtif” a été observé sur des dizaines de milliers de domaines et des millions de requêtes par jour.

En réponse, Perplexity a vivement réfuté les accusations de Cloudflare le 5 août, qualifiant l’analyse technique de “fondamentalement inadéquate” et “disqualifiante”. Perplexity soutient que Cloudflare a mal compris sa technologie, affirmant que son système fonctionne sur des “agents IA pilotés par l’utilisateur” qui récupèrent des informations en temps réel pour des requêtes utilisateur spécifiques, plutôt que des bots web traditionnels à grande échelle. La société a déclaré que lorsqu’un utilisateur demande des informations actuelles, l’IA se rend sur les sites web pertinents, lit le contenu et fournit un résumé adapté à la question spécifique, sans stocker les données pour l’entraînement. Perplexity a également accusé Cloudflare de mal attribuer le trafic automatisé d’un service tiers, BrowserBase, à ses propres systèmes, affirmant qu’il n’utilise ce service qu’occasionnellement et non pour le scraping web général.

Ce différend met en lumière une distinction cruciale et un dilemme éthique croissant à l’ère de l’IA : comment les agents IA qui accèdent aux sites web au nom d’un utilisateur doivent-ils être traités ? Le PDG de Cloudflare, Matthew Prince, s’est montré très critique quant à la “menace existentielle” potentielle que les modèles d’IA représentent pour les éditeurs, arguant que le scraping par IA pourrait nuire aux modèles commerciaux des créateurs de contenu en consommant de la bande passante sans générer de trafic de référence ni de revenus. Cloudflare a depuis retiré Perplexity de son programme de “bot vérifié” et a mis en œuvre de nouvelles mesures pour bloquer son prétendu crawling furtif sur son réseau.

La controverse souligne un débat plus large sur les pratiques de collecte de données par l’IA, le consentement au contenu et la propriété intellectuelle. Alors que les moteurs de recherche traditionnels renvoyaient historiquement les utilisateurs aux sources originales, les moteurs de recherche IA résument souvent directement le contenu, entraînant une baisse significative du trafic de référence pour les éditeurs. Cela force les propriétaires de sites web à un dilemme : bloquer les crawlers IA et risquer de perdre en visibilité, ou les autoriser et potentiellement subventionner des concurrents qui profitent de leur contenu sans compensation. Ce n’est pas la première fois que Perplexity est confronté à de telles accusations ; la société a déjà fait face à des allégations de plagiat de la part de médias comme Wired et est actuellement impliquée dans un procès avec Dow Jones et une menace d’action en justice de la BBC concernant le scraping de contenu.

L’affrontement continu entre Cloudflare et Perplexity illustre la course à l’armement technique et éthique qui s’intensifie entre les entreprises d’IA recherchant de vastes ensembles de données et les créateurs de contenu s’efforçant de contrôler leurs actifs numériques, signalant un moment crucial pour définir l’avenir de l’interaction web et des normes d’accès aux données.