Cloudflare accuse Perplexity de "rampage furtif" de sites web
Cloudflare, un fournisseur majeur d'infrastructures internet, a publiquement accusé la startup d'IA Perplexity de se livrer à un "comportement de rampage furtif" sur des millions de sites web, ravivant un débat controversé sur la manière dont les entreprises d'IA accèdent et utilisent le contenu web. L'accusation, détaillée dans un récent billet de blog de Cloudflare, allègue que les bots de Perplexity contournent les restrictions de sites web établies, y compris les fichiers robots.txt
et les règles de pare-feu, pour extraire du contenu.
Selon Cloudflare, les robots d'exploration de Perplexity utilisent initialement des agents utilisateurs déclarés, mais lorsqu'ils sont confrontés à des blocages réseau ou à des directives d'interdiction de robots.txt
, ils basculent prétendument vers des signatures de navigateur génériques non déclarées et font pivoter les adresses IP pour échapper à la détection. Ce comportement a été observé sur des dizaines de milliers de domaines et des millions de requêtes par jour, Cloudflare utilisant l'apprentissage automatique et les signaux réseau pour identifier l'activité furtive, y compris les cas où les bots se faisaient passer pour des navigateurs web populaires comme Google Chrome sur macOS. Les découvertes de Cloudflare proviennent de plaintes de clients qui ont remarqué que Perplexity accédait toujours à leur contenu malgré des blocages explicites.
Le fichier robots.txt
est une norme web largement adoptée qui fournit des instructions aux robots web, tels que les robots d'exploration des moteurs de recherche, sur les parties d'un site web qu'ils sont autorisés à consulter. Cloudflare affirme que les actions de Perplexity sont en conflit direct avec ces normes de rampage web, qui mettent l'accent sur la transparence et le respect des directives du site web. En conséquence, Cloudflare a retiré Perplexity de sa liste de bots vérifiés et a mis à jour ses règles pour bloquer cette activité furtive, offrant à ses clients une protection renforcée contre ces robots non déclarés.
En réponse aux allégations de Cloudflare, Perplexity a fortement riposté, qualifiant la direction de Cloudflare de "soit dangereusement mal informée sur les bases de l'IA, soit simplement plus de fioritures que de substance". Perplexity a clarifié dans un message que ses agents d'IA fonctionnent différemment des robots d'exploration web traditionnels. La société déclare que lorsqu'un utilisateur pose une question nécessitant des informations actuelles, son IA se rend sur les sites web pertinents, lit le contenu et fournit un résumé personnalisé, soulignant que ce contenu n'est pas stocké à des fins de formation mais utilisé immédiatement pour répondre à la requête de l'utilisateur. Perplexity a également suggéré que Cloudflare pourrait confondre son trafic légitime avec des requêtes non liées provenant de services tiers comme BrowserBase.
Ce différend met en lumière une tension croissante au sein de l'écosystème numérique, où les entreprises d'IA ont besoin de vastes quantités de données pour leurs modèles, tandis que les créateurs de contenu et les éditeurs cherchent à contrôler la manière dont leur propriété intellectuelle est consultée et monétisée. L'efficacité de robots.txt
en tant que protocole volontaire est de plus en plus remise en question à l'ère de l'IA, ce qui conduit à des appels à des mécanismes plus robustes permettant aux propriétaires de contenu d'exprimer leurs préférences concernant l'utilisation des données d'IA. La récente initiative de Cloudflare "Jour de l'Indépendance du Contenu", qui permet à plus de 2,5 millions de sites web de bloquer les robots d'exploration d'entraînement d'IA, souligne le virage de l'industrie vers un plus grand contrôle pour les créateurs de contenu.
L'incident avec Perplexity n'est pas isolé, d'autres entreprises d'IA comme Anthropic étant confrontées à des accusations et des défis juridiques similaires, y compris un procès de Reddit pour le grattage de contenu. Bien que certaines entreprises d'IA comme OpenAI adhèrent aux meilleures pratiques et aux normes proposées pour le comportement des bots, la controverse actuelle souligne la nécessité continue de directives éthiques claires et de solutions techniques pour gérer de manière responsable le rampage web piloté par l'IA.