Cloudflare vs. Perplexity: KI-Web-Scraping-Ethikstreit eskaliert

Marktechpost

Das digitale Schlachtfeld zwischen dem Internet-Infrastrukturriesen Cloudflare und dem KI-Such-Startup Perplexity spitzt sich zu. Es rückt das umstrittene Thema des KI-Web-Scrapings und der Regeln für Online-Daten ins Rampenlicht. Cloudflare hat Perplexity öffentlich vorgeworfen, systematisch Website-Sperren zu umgehen und seine Identität zu verschleiern, um Daten zu sammeln, was eine neue Debatte über Ethik und Transparenz im KI-Zeitalter entfacht.

Laut Cloudflare beruhen die Anschuldigungen auf umfangreichen Beobachtungen und zahlreichen Beschwerden von Kunden. Cloudflare behauptet, dass die Bots von Perplexity AI Standard-robots.txt-Protokolle — die digitalen „Zutritt verboten“-Schilder für Web-Crawler — und andere Firewall-Regeln ignoriert haben. Auffälliger ist, dass Cloudflare behauptet, Perplexity’s Crawler hätten betrügerische Taktiken angewendet, indem sie ihre User-Agents änderten, um gängige Webbrowser wie Google Chrome unter macOS zu imitieren, und IP-Adressen rotierten, um nach anfänglichen Blockierungen der Erkennung zu entgehen. Dieses angebliche „Stealth-Crawling“-Verhalten wurde Berichten zufolge auf Zehntausenden von Domains beobachtet und generierte Millionen täglicher Anfragen. Cloudflare führte sogar kontrollierte Tests durch, richtete eingeschränkte Domains ein, nur um festzustellen, dass Perplexity immer noch detaillierte Informationen über deren Inhalte liefern konnte, was auf eine bewusste Umgehung von Schutzmaßnahmen hindeutet. Als Reaktion darauf hat Cloudflare Perplexity als „verifizierten Bot“ delistet und neue Regeln implementiert, um dessen heimliche Crawler aktiv zu blockieren. Cloudflare-CEO Matthew Prince nahm kein Blatt vor den Mund und verglich das Verhalten einiger angeblich „seriöser“ KI-Unternehmen mit dem von „nordkoreanischen Hackern“.

Perplexity hat Cloudflares Anschuldigungen jedoch vehement dementiert und sie als „PR-Stunt“ oder „Verkaufsmasche“ abgetan, die auf grundlegenden Missverständnissen der Funktionsweise moderner KI-Assistenten basieren. Ein Sprecher von Perplexity argumentierte, dass Cloudflare nicht zwischen den offiziellen Crawlern von Perplexity und dem Datenverkehr von Drittanbieterdiensten wie BrowserBase unterscheiden konnte, die Perplexity angeblich nur gelegentlich nutzt. Perplexity behauptet, dass die überwiegende Mehrheit der markierten Anfragen benutzergesteuert waren und auftrat, wenn ein Benutzer eine bestimmte Frage stellte, was zu einem Echtzeit-Abruf von Informationen führte und nicht zu einem systematischen, unautorisierten Scraping für das Modelltraining. Das Unternehmen versicherte, dass seine Systeme diese abgerufenen Daten nicht zur Schulung von KI-Modellen speichern oder verwenden. Perplexity argumentierte auch, dass die Systeme von Cloudflare „grundsätzlich unzureichend“ seien, um zwischen legitimen KI-Assistenten und tatsächlichen Bedrohungen zu unterscheiden, und deutete an, dass die Fehlinterpretation benutzergesteuerter KI-Anfragen als bösartige Bots „E-Mail-Clients und Webbrowser kriminalisieren“ könnte.

Dieser eskalierende Streit unterstreicht eine breitere, schwelende Spannung zwischen KI-Firmen und Content-Publishern. Perplexity sah sich bereits zuvor ähnlichen Anschuldigungen gegenüber, darunter eine laufende Klage von Dow Jones Company (eingereicht im Oktober 2024) und eine rechtliche Drohung der BBC (Juni), die beide unbefugtes Content-Scraping vorwerfen. Der Kern des Konflikts liegt in der sich entwickelnden Interpretation der Web-Etikette und des robots.txt-Protokolls, einem langjährigen „Ehrenkodex“ aus den frühen Tagen des Internets. Während traditionelle Suchmaschinen den Traffic historisch zu den Publishern zurückführten, nutzen KI-Bots oft gescrapte Daten für direkte Antworten oder das Modelltraining und bieten den ursprünglichen Inhaltserstellern kaum bis keinen gegenseitigen Nutzen. Dieses Ungleichgewicht befeuert Forderungen nach neuen Standards und Vergütungsmodellen, wobei einige KI-Unternehmen, wie OpenAI, Lizenzvereinbarungen mit großen Publishern anstreben. Cloudflare hat seinerseits Tools für Publisher eingeführt, um KI-Bots zu blockieren, und einen Marktplatz geschaffen, um den bezahlten Datenzugriff zu erleichtern, was eine Verschiebung hin zu einer stärker regulierten, transaktionalen Beziehung für die KI-Datenerfassung signalisiert. Da KI-Agenten immer häufiger werden, könnte das Ergebnis dieser Schlacht zwischen Cloudflare und Perplexity einen entscheidenden Präzedenzfall für Inhaltsbesitz, Datenethik und die Zukunft des offenen Webs schaffen.