Perplexity AI : Accusations de scraping furtif, défiant les règles
Dans une escalade significative de la bataille en cours sur le scraping de contenu par IA, le géant de l'infrastructure internet Cloudflare a publiquement accusé la startup de recherche IA Perplexity AI d'employer des «robots d'exploration furtifs» pour contourner les restrictions des sites web et collecter illégalement des données. Les allégations, détaillées dans un rapport de Cloudflare publié le lundi 4 août 2025, suggèrent que les bots de Perplexity se déguisent activement pour bafouer les protocoles web largement acceptés, y compris les directives robots.txt
.
L'enquête de Cloudflare, déclenchée par des plaintes de ses clients, a révélé que même lorsque les sites web mettaient en œuvre des fichiers robots.txt
et des règles de pare-feu spécifiques pour bloquer les robots d'exploration officiellement déclarés par Perplexity (tels que PerplexityBot
), le service d'IA continuait d'accéder au contenu. Selon Cloudflare, les systèmes de Perplexity semblaient basculer vers des bots non déclarés qui imitaient le trafic légitime des navigateurs web, rotaient fréquemment les adresses IP et modifiaient les agents utilisateurs pour échapper à la détection. Les ingénieurs de Cloudflare ont comparé ce comportement à un «logiciel malveillant adaptatif» et le PDG de Cloudflare, Matthew Prince, a comparé de manière controversée ces tactiques à celles utilisées par les «hackers nord-coréens».
Perplexity AI, un moteur de recherche soutenu par des investisseurs comme Jeff Bezos, synthétise les réponses à partir du contenu web et fournit des citations, visant une récupération d'informations transparente et factuelle. Cependant, un porte-parole de Perplexity, Jesse Dwyer, a rejeté les affirmations de Cloudflare comme étant trompeuses, déclarant qu'«aucun contenu n'a été réellement consulté» et suggérant que le trafic en question ne provenait pas de leurs systèmes. Cette réponse intervient dans un contexte d'accusations similaires contre la firme d'IA.
Ce n'est pas la première fois que Perplexity AI est confrontée à des allégations de scraping agressif. En juin 2024, Forbes a publiquement critiqué l'entreprise pour avoir prétendument copié un article entier, y compris les illustrations, avec une attribution minimale. Wired a également rapporté en juin 2024 que Perplexity explorait du contenu de sites qui interdisaient explicitement de telles actions et a été observée paraphrasant des articles de manière inexacte. Les grandes organisations médiatiques ont également pris des mesures légales; The New York Times a émis une mise en demeure en octobre 2024, et la BBC a menacé de poursuites judiciaires en juin 2025, toutes deux accusant Perplexity d'utilisation non autorisée de contenu et de violation du droit d'auteur. Dow Jones et New York Post ont également déposé une plainte en juin 2024. Perplexity a généralement maintenu qu'elle «agrège» des informations publiques sous ce qu'elle estime être un usage équitable et qu'elle n'entraîne pas de grands modèles linguistiques à partir de zéro, mais indexe plutôt le web pour des résumés.
En réponse au problème croissant du scraping par IA, Cloudflare a pris des mesures proactives. La société a retiré Perplexity AI de la liste des «robots vérifiés» et a mis à jour ses systèmes pour bloquer activement ces activités d'«exploration furtive». Cloudflare propose également des outils aux propriétaires de sites web pour bloquer facilement les robots d'exploration d'entraînement d'IA et a même introduit une fonction «Labyrinthe IA» en mars 2025, conçue pour piéger les bots malveillants dans un labyrinthe de contenu indésirable généré par l'IA, gaspillant leurs ressources et dissuadant le scraping non autorisé. Le PDG de Cloudflare a souligné la nécessité pour les entreprises d'IA d'adopter des normes éthiques, avertissant qu'une évasion continue pourrait entraîner des blocages plus larges.
Le litige souligne une tension fondamentale à l'ère de l'IA : les développeurs d'IA ont besoin de vastes quantités de données pour entraîner leurs modèles, tandis que les éditeurs de contenu cherchent à contrôler et à monétiser leur propriété intellectuelle. Bien que robots.txt
ait longtemps servi de protocole volontaire pour les robots d'exploration web, les implications éthiques et légales d'ignorer ces directives pour l'entraînement d'IA et la génération de contenu restent un sujet très débattu, ce qui pourrait accélérer les appels à la réglementation de l'industrie et à de nouveaux cadres juridiques.