Cloudflare wirft Perplexity verdecktes KI-Scraping vor
In einem schnell eskalierenden Streit hat der Internet-Infrastrukturriese Cloudflare den KI-Suchmaschinenanbieter Perplexity öffentlich beschuldigt, „heimliche Crawling“-Taktiken einzusetzen, um Website-Beschränkungen zu umgehen und Inhalte zu scrapen. Die Anschuldigungen, die Cloudflare am Montag, dem 5. August 2025, in einem Forschungsbeitrag detailliert darlegte, haben eine neue Debatte über die Ethik der KI-Datenerfassung und die Kontrolle von Content-Erstellern über ihre digitalen Assets entfacht.
Die Behauptungen von Cloudflare stammen aus einer Untersuchung, die eingeleitet wurde, nachdem zahlreiche Kunden berichtet hatten, dass die KI-Bots von Perplexity trotz expliziter Blockaden über robots.txt
-Dateien und andere netzwerkweite Regeln weiterhin auf ihre Websites zugriffen. Laut Cloudflare sollen die Crawler von Perplexity, die sich ursprünglich mit Standard-Benutzeragenten wie „PerplexityBot“ identifizierten, ihre Identität verschleiern, wenn sie auf eine Netzwerkblockade stießen, um Website-Präferenzen zu umgehen.
Zu den angeblichen Taktiken gehören die Nachahmung legitimer Browser, wie Google Chrome unter macOS, sowie das Rotieren von IP-Adressen und Autonomen Systemnummern (ASNs), um die Erkennung zu umgehen. Die Forscher von Cloudflare beobachteten diese Aktivität über „Zehntausende von Domains und Millionen von Anfragen pro Tag“, die außerhalb der offiziell deklarierten IP-Bereiche von Perplexity stattfanden. Um ihre Erkenntnisse zu untermauern, erstellte Cloudflare sogar Testdomains, die so konfiguriert waren, dass sie den Bot-Zugriff verweigerten, auf die die Perplexity-Crawler angeblich immer noch zugreifen und Informationen abrufen konnten. Cloudflare-CEO Matthew Prince ging sogar so weit, die angeblichen Aktionen von Perplexity mit denen „nordkoreanischer Hacker“ zu vergleichen. Als Reaktion auf seine Erkenntnisse hat Cloudflare Perplexity von seiner Liste der verifizierten Bots entfernt und neue verwaltete Regelheuristiken implementiert, um solches heimliches Crawling in seinem Netzwerk zu erkennen und zu blockieren.
Perplexity hat die Anschuldigungen jedoch vehement bestritten und den Bericht von Cloudflare als „Verkaufsargument“ abgetan. Jesse Dwyer, ein Sprecher von Perplexity, versicherte, dass der von Cloudflare identifizierte Bot nicht mit ihrem Unternehmen in Verbindung stehe und behauptete, dass die von Cloudflare bereitgestellten Screenshots keinen tatsächlichen Inhaltszugriff zeigten. Perplexity argumentiert, dass Cloudflare das Betriebsmodell moderner KI-Assistenten grundlegend missversteht. Das KI-Startup erklärte, dass seine Plattform auf „benutzergesteuerten Agenten“ basiert, die Inhalte nur dann abrufen, wenn ein Benutzer eine spezifische Frage stellt, die Echtzeitinformationen erfordert, und betonte, dass diese abgerufenen Daten weder gespeichert noch zum Training von KI-Modellen verwendet werden. Darüber hinaus beschuldigte Perplexity Cloudflare, automatisierten Datenverkehr eines Drittanbieterdienstes, BrowserBase, fälschlicherweise seinen Systemen zuzuordnen, und bezeichnete dies als „grundlegenden Fehler bei der Verkehrsanalyse“.
Dieser hochrangige Streit unterstreicht die wachsende Spannung zwischen KI-Unternehmen, die für ihre Funktionalitäten auf riesige Mengen von Webdaten angewiesen sind, und Website-Betreibern, die danach streben, die Kontrolle über ihr geistiges Eigentum und ihre Inhaltsverteilung zu behalten. Die Abhängigkeit von KI-Tools von Retrieval Augmented Generation (RAG) bedeutet einen kontinuierlichen Bedarf an aktuellen Informationen, was einige Publisher als „umsatzbedrohende parasitäre Beziehung“ betrachten. Ethische Überlegungen bezüglich der KI-Datenbeschaffung, Transparenz im Bot-Verhalten und der Einhaltung von Webstandards wie robots.txt
stehen im Mittelpunkt dieser Debatte. Cloudflare hat kürzlich seine Initiative „Content Independence Day“ gestartet, die darauf abzielt, über 2,5 Millionen Websites zu befähigen, KI-Trainings-Crawler zu blockieren und eine größere Kontrolle über ihre Inhalte auszuüben. Dies ist nicht das erste Mal, dass Perplexity wegen seiner Inhaltserwerbspraktiken unter die Lupe genommen wird, mit früheren Anschuldigungen wie Plagiat und Umgehung von Paywalls. Die anhaltende Kontroverse beleuchtet die komplexe Herausforderung, KI-Innovation mit den Rechten und Präferenzen von Web-Publishern in der sich entwickelnden digitalen Landschaft in Einklang zu bringen.