Cloudflare wirft Perplexity geheimes Web-Crawling vor
Das digitale Schlachtfeld zwischen dem Internet-Infrastrukturriesen Cloudflare und der KI-Suchmaschine Perplexity hat sich verschärft, wobei Cloudflare Perplexity öffentlich beschuldigt, Websites trotz expliziter Sperren heimlich zu crawlen. Dieser eskalierende Streit unterstreicht wachsende Spannungen bezüglich der Ethik des Daten-Scrapings und der sich entwickelnden Regeln des Internets im Zeitalter der künstlichen Intelligenz.
Der Konflikt entzündete sich am 4. August 2025, als Cloudflare einen detaillierten Blogbeitrag veröffentlichte, in dem behauptet wurde, Perplexity verstoße gegen etablierte Webstandards. Die Untersuchung von Cloudflare wurde durch Kundenbeschwerden ausgelöst, bei denen Website-Betreiber feststellten, dass Perplexity weiterhin auf ihre Inhalte zugriff, obwohl sie die offiziellen Crawler des KI-Dienstes, „PerplexityBot“ und „Perplexity-User“, explizit über robots.txt
-Dateien oder Web Application Firewalls (WAFs) blockiert hatten.
Cloudflare behauptet, Perplexity wende einen „zweigleisigen Ansatz“ an, um diese Beschränkungen zu umgehen. Wenn seine deklarierten Bots blockiert sind, setzt das Unternehmen angeblich nicht deklarierte Crawler ein, die sich als Standard-Webbrowser, wie Chrome unter macOS, ausgeben, indem sie nicht gelistete IP-Adressen rotieren und ihre Quell-Autonomen Systeme (ASNs) ändern. Cloudflare führte kontrollierte Experimente an neuen, nicht indexierten Domains mit strengen robots.txt
- und Firewall-Regeln durch und stellte fest, dass Perplexity immer noch geheime Inhalte zusammenfassen konnte, die hinter diesen Beschränkungen lagen. Cloudflares Bericht zeigte, dass dieses „Stealth-Crawling“-Verhalten auf Zehntausenden von Domains und Millionen von Anfragen pro Tag beobachtet wurde.
Als Reaktion darauf wies Perplexity die Vorwürfe von Cloudflare am 5. August scharf zurück und bezeichnete die technische Analyse als „grundlegend unzureichend“ und „disqualifizierend“. Perplexity argumentiert, dass Cloudflare seine Technologie missverstanden habe, und behauptet, dass sein System auf „benutzergesteuerten KI-Agenten“ basiere, die Informationen in Echtzeit für spezifische Benutzeranfragen abrufen, anstatt auf traditionellen, groß angelegten Web-Bots. Das Unternehmen erklärte, dass, wenn ein Benutzer nach aktuellen Informationen fragt, die KI zu relevanten Websites geht, den Inhalt liest und eine auf die spezifische Frage zugeschnittene Zusammenfassung liefert, ohne die Daten zum Training zu speichern. Perplexity beschuldigte Cloudflare auch, automatisierten Traffic von einem Drittanbieterdienst, BrowserBase, fälschlicherweise seinen eigenen Systemen zuzuordnen, und behauptete, es nutze diesen Dienst nur gelegentlich und nicht für allgemeines Web-Scraping.
Dieser Streit verdeutlicht eine kritische Unterscheidung und ein wachsendes ethisches Dilemma im Zeitalter der KI: Wie sollen KI-Agenten behandelt werden, die im Namen eines Benutzers auf Websites zugreifen? Cloudflares CEO, Matthew Prince, hat sich lautstark über die potenzielle „existenzielle Bedrohung“ geäußert, die KI-Modelle für Verlage darstellen, und argumentiert, dass KI-Scraping die Geschäftsmodelle von Content-Erstellern beschädigen könnte, indem es Bandbreite verbraucht, ohne Referral-Traffic oder Einnahmen zu generieren. Cloudflare hat Perplexity inzwischen aus seinem „verifizierten Bot“-Programm entfernt und neue Maßnahmen implementiert, um das angebliche Stealth-Crawling in seinem Netzwerk zu blockieren.
Die Kontroverse unterstreicht eine breitere Debatte über KI-Datenerfassungspraktiken, Inhaltszustimmung und geistiges Eigentum. Während traditionelle Suchmaschinen Benutzer historisch zu Originalquellen zurückführten, fassen KI-Suchmaschinen Inhalte oft direkt zusammen, was zu einem erheblichen Rückgang des Referral-Traffics für Verlage führt. Dies zwingt Website-Betreiber in ein Dilemma: KI-Crawler blockieren und das Risiko eingehen, an Sichtbarkeit zu verlieren, oder sie zulassen und möglicherweise Konkurrenten subventionieren, die von ihren Inhalten ohne Vergütung profitieren. Dies ist nicht Perplexity’s erste Begegnung mit solchen Anschuldigungen; das Unternehmen sah sich zuvor Plagiatsvorwürfen von Medien wie Wired gegenüber und ist derzeit in einen Rechtsstreit mit Dow Jones verwickelt sowie einer angedrohten Klage der BBC wegen Content-Scrapings ausgesetzt.
Der anhaltende Konflikt zwischen Cloudflare und Perplexity veranschaulicht das sich intensivierende technische und ethische Wettrüsten zwischen KI-Unternehmen, die riesige Datensätze suchen, und Content-Erstellern, die ihre digitalen Assets kontrollieren wollen, und markiert einen entscheidenden Moment für die Definition der Zukunft der Web-Interaktion und Datenzugriffsnormen.