Cloudflare vs. Perplexity: KI-Web-Scraping-Krieg und Rechtsrisiken
Die digitale Landschaft kämpft derzeit mit einem bedeutenden Streit zwischen dem Internet-Infrastrukturriesen Cloudflare und dem KI-Startup Perplexity, der sich um Vorwürfe des unerlaubten Web-Scrapings dreht. Dieser „Web-Scraping-Krieg“ hat tiefgreifende Auswirkungen auf die Zukunft der künstlichen Intelligenzentwicklung, der Inhaltsmonetarisierung und die Ethik der Datenerfassung im digitalen Zeitalter.
Cloudflare initiierte die öffentliche Diskussion am 4. August 2025 mit einem Blogbeitrag, in dem Perplexity, eine KI-gestützte „Antwort-Engine“, beschuldigt wird, robots.txt
-Beschränkungen zu umgehen, um Inhalte zu scrapen. Robots.txt
-Dateien sind ein langjähriger Webstandard, der 1994 eingeführt und 2022 formell standardisiert wurde und es Websites ermöglicht, zu signalisieren, ob sie möchten, dass ihre Inhalte von Suchmaschinen oder KI-Crawlern indiziert werden. Cloudflare behauptet, dass Perplexity zunächst seine deklarierten User-Agents (wie PerplexityBot) verwendet, aber wenn es blockiert wird, auf „heimliches Crawling“ zurückgreift, indem es seine Identität verschleiert, User-Agents modifiziert, Quell-IP-Adressen ändert und manchmal sogar überhaupt keine robots.txt
-Dateien abruft. Dieses Verhalten, so Cloudflare, ist unvereinbar mit der etablierten Web-„Netiquette“ und den ethischen Standards, die historisch die Internetinteraktionen geregelt haben. Die Untersuchung von Cloudflare wurde durch zahlreiche Beschwerden von Kunden ausgelöst, die Perplexity’s Crawling-Aktivitäten in ihren robots.txt
-Dateien explizit untersagt und Web Application Firewall (WAF)-Regeln implementiert hatten, aber dennoch feststellten, dass ihre Inhalte von Perplexity abgerufen wurden. Cloudflare hat Perplexity seitdem als „verifizierten Bot“ delisted und neue Regeln zur Blockierung seines heimlichen Crawlings implementiert.
Perplexity hat die Anschuldigungen von Cloudflare vehement dementiert und deren Analyse als „peinlich“ und „disqualifizierend“ bezeichnet. Perplexity argumentiert, dass die Systeme von Cloudflare „grundsätzlich unzureichend sind, um zwischen legitimen KI-Assistenten und tatsächlichen Bedrohungen zu unterscheiden“. Das KI-Startup behauptet, dass sein System grundlegend anders funktioniert als traditionelle Web-Crawler; anstatt systematisch große Teile des Webs zu indizieren, ruft es Webseiten nur als Reaktion auf spezifische Benutzerfragen ab und fungiert als „vom Benutzer ausgelöster Agent“. Perplexity behauptet, Inhalte nicht im Voraus zu speichern oder zu indizieren und die abgerufenen Inhalte nicht zum Trainieren seiner Modelle zu speichern oder zu verwenden.
Dieser Streit ist kein Einzelfall für Perplexity. Das Unternehmen ist bereits in Rechtsstreitigkeiten mit großen Verlagen verwickelt. Im Oktober 2024 reichte Dow Jones (Muttergesellschaft von The Wall Street Journal und New York Post) eine Klage gegen Perplexity ein, in der „massive“ Urheberrechtsverletzungen durch Kopieren ihrer Inhalte zum Aufbau ihres Retrieval Augmented Generation (RAG)-Index vorgeworfen werden. Die Klage behauptet, dass diese Praxis es Perplexity-Benutzern ermöglicht, „die Links zu überspringen“ und direkt auf Zusammenfassungen zuzugreifen, wodurch der Traffic und die Einnahmen für Verlage reduziert werden. Ähnlich sandte die BBC im Juni 2025 einen Brief an Perplexity, in dem sie mit rechtlichen Schritten wegen des Scrapings ihrer Inhalte ohne Genehmigung drohte und Entschädigung oder Datenlöschung forderte. Die BBC behauptet, Beweise dafür zu haben, dass Perplexity’s Modell mit ihren Inhalten trainiert wurde und dass Teile ihrer Inhalte wörtlich reproduziert wurden, was direkt mit ihren Diensten konkurriert. Perplexity wiederum bezeichnete die Behauptungen der BBC als „manipulativ und opportunistisch“ und als Hinweis auf ein „grundlegendes Missverständnis“ von Technologie und Urheberrecht. Trotz dieser rechtlichen Herausforderungen hat Perplexity auch Einnahmenbeteiligungsvereinbarungen mit einigen Verlagen, darunter Time, Fortune und Der Spiegel, getroffen, um Bedenken hinsichtlich der Inhalte auszuräumen.
Die umfassenderen Auswirkungen dieses „Web-Scraping-Krieges“ sind bedeutsam für die sich entwickelnde Beziehung zwischen KI-Entwicklern und Inhaltserstellern. Der Aufstieg von KI-Crawlern, die Inhalte zusammenfassen, ohne direkten Traffic oder Einnahmen für Verlage zu generieren, bedroht das dominante Geschäftsmodell des Webs. Cybersicherheitsforscher erwarten ein eskalierendes „Wettrüsten“ zwischen denen, die Inhalte schützen, und KI-Unternehmen, die Daten suchen. Während die rechtlichen Grenzen des Scrapings von Inhalten und des Umgehens von robots.txt
unklar bleiben, könnten die Ergebnisse von Cloudflare Perplexity weiteren Klagen aussetzen. Dieser andauernde Konflikt unterstreicht die dringende Notwendigkeit klarer ethischer Richtlinien und möglicherweise neuer rechtlicher Rahmenbedingungen, um zu regeln, wie KI-Systeme auf Online-Daten zugreifen und diese nutzen, um Innovation mit den Rechten der Inhaltsersteller in Einklang zu bringen.