Cloudflare vs. Perplexity: KI-Web-Scraping-Krieg entfacht Rechtsrisiken

Fastcompany

Zwischen dem Internet-Infrastruktur-Giganten Cloudflare und dem KI-Such-Startup Perplexity ist ein bedeutender Konflikt ausgebrochen, der sich auf Vorwürfe illegaler Web-Scraping-Praktiken konzentriert, die erhebliche Auswirkungen auf die Zukunft der künstlichen Intelligenz und des Inhalteigentums haben. Cloudflare hat Perplexity öffentlich beschuldigt, Standard-Web-Beschränkungen, einschließlich robots.txt-Anweisungen, zu umgehen, um Websites “heimlich zu crawlen” und Inhalte ohne Genehmigung zu sammeln.

Der Streit eskalierte nach Cloudflares Ankündigung vom 5. August 2025, dass es Perplexitys Crawler als “verifizierten Bot” von der Liste streichen und seine “Stealth-Bots” aktiv daran hindern würde, auf die rund 24 Millionen von Cloudflare geschützten Websites zuzugreifen. Cloudflares Untersuchung, die durch zahlreiche Kundenbeschwerden ausgelöst wurde, ergab, dass Perplexitys deklarierte User-Agents (wie PerplexityBot und Perplexity-User) zunächst versuchen würden, Websites zu crawlen. Beim Auftreten einer Netzwerkblockade oder einer robots.txt-Ausschlussregel sollen Perplexitys Systeme jedoch ihre Identität verschleiert haben, indem sie User-Agents modifizierten, Quell-Autonomous System Numbers (ASNs) änderten und generische Browser wie Google Chrome unter macOS imitierten, um Beschränkungen zu umgehen. Diese “heimliche Crawling”-Aktivität wurde auf Zehntausenden von Domains beobachtet und generierte täglich Millionen von Anfragen.

Cloudflare betonte, dass das Internet auf Vertrauen basiert und von legitimen Crawlern erwartet wird, dass sie transparent sind, einem klaren Zweck dienen und vor allem den Website-Anweisungen folgen. Ihr Schritt, Perplexity zu blockieren, unterstreicht eine wachsende Spannung zwischen dem unersättlichen Bedarf von KI-Firmen an Trainingsdaten und den Rechten und Präferenzen der Inhalteersteller. Cloudflare hat kürzlich auch Funktionen eingeführt, die es ihren Kunden ermöglichen, alle KI-Crawler zu blockieren, sowie ein “Pay Per Crawl”-Programm, das es Verlagen ermöglicht, Tarife für KI-Unternehmen festzulegen, die ihre Inhalte lizenzieren möchten.

Perplexity, eine KI-gestützte “Antwort-Engine” mit einem Wert von 18 Milliarden US-Dollar (Stand Juli 2025), ist schnell aufgestiegen, indem sie große Sprachmodelle nutzt, um Antworten mit Quellenangaben zu synthetisieren. Dies ist jedoch nicht das erste Mal, dass das Startup Anschuldigungen bezüglich seiner Datenerfassungsmethoden ausgesetzt ist. Große Medienorganisationen, darunter Dow Jones, The New York Times und die BBC, haben zuvor rechtliche Schritte angedroht oder Klagen gegen Perplexity eingereicht, in denen sie Urheberrechtsverletzungen, unbefugte Inhaltsnutzung und die Reproduktion wörtlicher journalistischer Inhalte ohne Genehmigung oder ordnungsgemäße Quellenangabe behaupteten. News Corp, die Muttergesellschaft von Dow Jones und der New York Post, reichte im Oktober 2024 eine Klage wegen Urheberrechtsverletzung ein und beschuldigte Perplexity des “massiven Trittbrettfahrens” und der Umleitung von Traffic und Einnahmen. Die BBC drohte im Juni 2025 mit Klage und behauptete, Perplexitys KI-Modell sei mit ihren Inhalten trainiert worden, und forderte eine einstweilige Verfügung sowie finanziellen Ausgleich.

Als Reaktion auf Cloudflares Vorwürfe wies Perplexity-Sprecher Jesse Dwyer den Bericht als “Verkaufsgespräch” ab und behauptete, die von Cloudflare bereitgestellten Screenshots zeigten, dass tatsächlich keine Inhalte aufgerufen wurden. Perplexity hat zuvor auch seine Praktiken verteidigt, indem es die Einhaltung von Industriestandards behauptete und argumentierte, dass seine Plattform “benutzergesteuerte Agenten” verwendet, die Inhalte nur abrufen, wenn ein Benutzer eine bestimmte Frage stellt, und dass die abgerufenen Daten nicht gespeichert oder zum Trainieren von KI-Modellen verwendet werden. Perplexity-CEO Aravind Srinivas hat das Scraping öffentlich als wesentlich für das Training von KI-Modellen verteidigt. Das Unternehmen hat auch Lizenzvereinbarungen getroffen, beispielsweise mit Gannett, um legal auf Inhalte von über 200 Publikationen zuzugreifen.

Dieser eskalierende “Web-Scraping-Krieg” verdeutlicht die Grenzen aktueller Webprotokolle wie robots.txt gegenüber entschlossenen Scraping-Betreibern und signalisiert einen entscheidenden Moment, in dem die offene Natur des Webs mit den Anforderungen der KI kollidiert. Experten deuten darauf hin, dass dieser Vorfall zu strengeren Kontrollen durch Web-Infrastruktur-Anbieter führen und möglicherweise die politischen Diskussionen und die regulatorische Prüfung rund um transparente Praktiken und durchsetzbare Datenzugriffsvereinbarungen für KI intensivieren könnte. Die Debatte unterstreicht den dringenden Bedarf an klareren Richtlinien und Schutzmaßnahmen im schnell fortschreitenden Bereich der KI, um Innovation mit geistigen Eigentumsrechten in Einklang zu bringen.

Cloudflare vs. Perplexity: KI-Web-Scraping-Krieg entfacht Rechtsrisiken - OmegaNext KI-Nachrichten