Cloudflare vs Perplexity : La Guerre Éthique du Web Scraping IA S'Intensifie
Le champ de bataille numérique entre le géant de l’infrastructure Internet Cloudflare et la startup de recherche IA Perplexity s’intensifie, mettant en lumière la question controversée du web scraping par l’IA et les règles mêmes régissant les données en ligne. Cloudflare a publiquement accusé Perplexity de contourner systématiquement les blocages de sites web et de masquer son identité pour collecter des données, déclenchant un nouveau débat sur l’éthique et la transparence à l’ère de l’IA.
Selon Cloudflare, les accusations découlent d’observations approfondies et de nombreuses plaintes de ses clients. Cloudflare allègue que les bots de Perplexity AI ont ignoré les protocoles robots.txt
standards — les panneaux numériques « Entrée Interdite » pour les robots d’exploration web — et d’autres règles de pare-feu. Plus frappant encore, Cloudflare affirme que les crawlers de Perplexity ont adopté des tactiques trompeuses, modifiant leurs agents utilisateurs pour se faire passer pour des navigateurs web courants comme Google Chrome sur macOS et faisant pivoter les adresses IP pour échapper à la détection après les blocages initiaux. Ce comportement présumé de « crawling furtif » aurait été observé sur des dizaines de milliers de domaines, générant des millions de requêtes quotidiennes. Cloudflare a même mené des tests contrôlés, en configurant des domaines restreints, pour constater que Perplexity était toujours capable de fournir des informations détaillées sur leur contenu, suggérant un contournement délibéré des mesures de protection. En réponse, Cloudflare a retiré Perplexity de sa liste de « bots vérifiés » et a mis en œuvre de nouvelles règles pour bloquer activement ses crawlers furtifs. Le PDG de Cloudflare, Matthew Prince, n’a pas mâché ses mots, comparant le comportement de certaines entreprises d’IA soi-disant « réputées » à celui de « hackers nord-coréens ».
Perplexity, cependant, a nié avec véhémence les allégations de Cloudflare, les rejetant comme un « coup de publicité » ou un « argument de vente » basé sur des malentendus fondamentaux sur le fonctionnement des assistants IA modernes. Un porte-parole de Perplexity a fait valoir que Cloudflare n’avait pas réussi à différencier les crawlers officiels de Perplexity du trafic provenant de services tiers, tels que BrowserBase, que Perplexity affirme n’utiliser qu’occasionnellement. Perplexity soutient que la grande majorité des requêtes signalées étaient pilotées par l’utilisateur, se produisant lorsqu’un utilisateur pose spécifiquement une question, ce qui entraîne une récupération d’informations en temps réel plutôt qu’un scraping systématique et non autorisé pour l’entraînement de modèles. La société a affirmé que ses systèmes ne stockent ni n’utilisent ces données récupérées pour l’entraînement des modèles d’IA. Perplexity a également soutenu que les systèmes de Cloudflare sont « fondamentalement inadéquats » pour distinguer entre les assistants IA légitimes et les menaces réelles, suggérant que caractériser à tort les requêtes IA pilotées par l’utilisateur comme des bots malveillants pourrait « criminaliser les clients de messagerie et les navigateurs web ».
Ce différend croissant souligne une tension plus large et latente entre les entreprises d’IA et les éditeurs de contenu. Perplexity a déjà fait face à des accusations similaires, notamment un procès en cours de Dow Jones Company (déposé en octobre 2024) et une menace juridique de la BBC (juin), tous deux alléguant un scraping de contenu non autorisé. Le cœur du conflit réside dans l’interprétation évolutive de l’étiquette web et du protocole robots.txt
, un « code d’honneur » de longue date datant des débuts d’Internet. Alors que les moteurs de recherche traditionnels renvoyaient historiquement le trafic vers les éditeurs, les bots IA utilisent souvent les données scrapées pour des réponses directes ou l’entraînement de modèles, offrant peu ou pas de bénéfice réciproque aux créateurs de contenu originaux. Ce déséquilibre alimente les appels à de nouvelles normes et modèles de rémunération, certaines entreprises d’IA, comme OpenAI, recherchant des accords de licence avec les principaux éditeurs. Cloudflare, pour sa part, a introduit des outils permettant aux éditeurs de bloquer les bots IA et une place de marché pour faciliter l’accès payant aux données, signalant un passage à une relation plus réglementée et transactionnelle pour l’acquisition de données IA. À mesure que les agents IA deviennent plus répandus, le résultat de cette bataille entre Cloudflare et Perplexity pourrait établir un précédent critique pour la propriété du contenu, l’éthique des données et l’avenir du web ouvert.