Conflit Cloudflare-Perplexity: Crawlers IA et fissures de la confiance web révélées

Computerworld

Un différend public entre le géant de l’infrastructure cloud Cloudflare et la société de recherche IA Perplexity a mis en lumière les défis fondamentaux pour la confiance sur internet et l’évolution du paysage de la collecte de données par IA. Cet échange houleux, qui se déroule depuis début août 2025, révèle des vulnérabilités significatives dans la manière dont les entreprises protègent leur contenu en ligne contre des crawlers IA de plus en plus sophistiqués et appelle de toute urgence à de nouvelles normes web.

La controverse a éclaté lorsque Cloudflare a publié un rapport technique accusant Perplexity de “crawling furtif”. Cloudflare a allégué que Perplexity utilisait des navigateurs web déguisés, tels que des agents utilisateurs Chrome génériques sur macOS, pour contourner les blocages de sites web et scraper du contenu que les propriétaires de sites avaient explicitement voulu tenir à l’écart de l’entraînement IA. L’enquête de Cloudflare aurait commencé après que des clients se soient plaints que Perplexity accédait toujours à leur contenu malgré la mise en œuvre de directives robots.txt et de règles de pare-feu. Pour valider ces préoccupations, Cloudflare a créé de nouveaux domaines, bloqué tous les crawlers IA connus, puis a interrogé Perplexity sur ces sites restreints, constatant que Perplexity fournissait toujours des informations détaillées à partir de ceux-ci. Selon Cloudflare, lorsque son crawler déclaré était bloqué, Perplexity aurait basculé vers ces agents utilisateurs génériques, générant 3 à 6 millions de requêtes quotidiennes sur des dizaines de milliers de sites web, en plus des 20 à 25 millions de requêtes quotidiennes de son crawler déclaré. Cloudflare a souligné que ce comportement violait les principes fondamentaux d’internet en matière de transparence et de respect des directives des sites web. [Résumé, 3, 4, 6]

Perplexity a rapidement répliqué, rejetant le rapport de Cloudflare comme un “coup de publicité” visant à obtenir un avantage marketing sur son propre client. [Résumé, 5] La société d’IA a suggéré que Cloudflare avait fondamentalement mal attribué des millions de requêtes web de BrowserBase, un service de navigateur automatisé tiers, à Perplexity. Perplexity a affirmé que sa propre utilisation de BrowserBase représentait moins de 45 000 requêtes quotidiennes, une fraction des 3 à 6 millions que Cloudflare a citées comme crawling furtif. [Résumé, 5] Perplexity a en outre fait valoir que Cloudflare avait mal compris la nature des assistants IA modernes, expliquant que son service fonctionne comme un “agent piloté par l’utilisateur” qui récupère du contenu en temps réel pour des requêtes utilisateur spécifiques, plutôt que de s’engager dans un crawling web traditionnel à des fins de stockage ou d’entraînement de données. [Résumé, 3, 4, 5]

Les analystes de l’industrie s’accordent largement sur le fait que cette querelle publique expose des failles systémiques plus profondes dans les stratégies actuelles de protection de contenu. Les outils traditionnels de détection de bots, conçus pour les crawlers web statiques, peinent à distinguer les services IA légitimes des crawlers problématiques, affichant souvent un nombre élevé de faux positifs et une susceptibilité aux tactiques d’évasion. Les bots IA modernes sont de plus en plus sophistiqués, capables d’imiter le comportement humain, de masquer leurs origines par rotation d’IP et serveurs proxy, et même d’employer l’apprentissage automatique pour contourner les défenses comme les CAPTCHA. Cette “course aux armements” entre les développeurs de bots et les systèmes de détection souligne que le trafic automatisé représente désormais plus de la moitié de toute l’activité web, les seuls bots malveillants constituant 37 % du trafic internet en 2024, une augmentation notable par rapport aux 32 % en 2023.

Le différend met également en lumière des considérations éthiques et juridiques critiques entourant le crawling web par IA. Les questions de consentement, de transparence et de propriété intellectuelle sont primordiales, car les systèmes IA ignorent souvent les souhaits des créateurs de contenu et violent les accords de conditions de service. Le scraping web éthique exige le respect de la vie privée, l’adhésion aux règles du site et l’évitement de l’exploitation d’informations sensibles ou personnelles. Les experts avertissent qu’un échec à établir des lignes directrices claires pourrait conduire à un “web balkanisé”, où l’accès serait dicté par les principaux fournisseurs d’infrastructure, étouffant potentiellement l’innovation ouverte. [Résumé]

En réponse à ces défis croissants, l’industrie s’oriente lentement vers de nouvelles normes. Un développement notable est “Web Bot Auth”, une norme web proposée pour l’authentification des agents automatisés, actuellement en cours de développement par des discussions avec les fournisseurs de navigateurs et les organismes de normalisation. Cette initiative vise à créer un cadre unifié et vérifiable cryptographiquement pour que les bots et les agents IA puissent s’identifier auprès des sites web, abordant ainsi la fragmentation actuelle et les vulnérabilités d’usurpation d’identité. OpenAI serait en train de piloter la vérification d’identité via Web Bot Auth, indiquant une poussée vers des interactions web IA plus transparentes et responsables. [Résumé] Cependant, des normes matures ne sont pas attendues avant 2026, ce qui signifie que les entreprises continueront probablement à s’appuyer sur des contrats personnalisés, des fichiers robots.txt et des précédents juridiques en évolution dans l’intervalle. [Résumé] D’autres stratégies d’atténuation incluent la limitation des sites web qu’un agent IA peut rechercher à l’aide de la politique de sécurité de contenu (Content Security Policy) ou de l’ancrage d’URL (URL Anchoring), comme l’emploient certains grands modèles IA.

La confrontation Cloudflare-Perplexity souligne un moment pivot pour internet. À mesure que les capacités de l’IA progressent, le besoin de règles d’engagement claires, de mécanismes d’authentification robustes et d’un regain d’attention à la confiance entre les créateurs de contenu, les fournisseurs d’infrastructure et les développeurs IA devient de plus en plus urgent pour assurer un écosystème numérique juste et fonctionnel.