Cloudflare beschuldigt KI-Firma Perplexity des „heimlichen Crawlings“
Cloudflare, ein prominenter Anbieter von Internet-Infrastruktur, hat das KI-Startup Perplexity öffentlich beschuldigt, „heimliches Crawling-Verhalten“ auf Millionen von Websites zu betreiben, was eine kontroverse Debatte darüber neu entfacht, wie KI-Firmen auf Webinhalte zugreifen und diese nutzen. Die Anschuldigung, die in einem kürzlich veröffentlichten Cloudflare-Blogbeitrag detailliert beschrieben wird, behauptet, dass Perplexity-Bots etablierte Website-Beschränkungen, einschließlich robots.txt
-Dateien und Firewall-Regeln, umgehen, um Inhalte zu scrapen.
Laut Cloudflare verwenden die Crawler von Perplexity zunächst deklarierte User-Agents, wechseln aber angeblich zu undeklarierten, generischen Browser-Signaturen und rotieren IP-Adressen, um der Erkennung zu entgehen, wenn sie mit Netzwerkblockaden oder robots.txt
-Disallow-Direktiven konfrontiert werden. Dieses Verhalten wurde über Zehntausende von Domains und Millionen von Anfragen pro Tag beobachtet, wobei Cloudflare maschinelles Lernen und Netzwerksignale nutzte, um die heimliche Aktivität zu identifizieren, einschließlich Fällen, in denen die Bots beliebte Webbrowser wie Google Chrome unter macOS imitierten. Cloudflares Erkenntnisse stammten aus Beschwerden von Kunden, die feststellten, dass Perplexity trotz expliziter Blockaden immer noch auf ihre Inhalte zugriff.
Die robots.txt
-Datei ist ein weit verbreiteter Webstandard, der Web-Robotern, wie Suchmaschinen-Crawlern, Anweisungen gibt, welche Teile einer Website sie besuchen dürfen. Cloudflare behauptet, dass die Aktionen von Perplexity in direktem Konflikt mit diesen Web-Crawling-Normen stehen, die Transparenz und die Einhaltung von Website-Direktiven betonen. Infolgedessen hat Cloudflare Perplexity als verifizierten Bot de-listet und seine Regeln aktualisiert, um solche heimlichen Aktivitäten zu blockieren, wodurch seinen Kunden ein verbesserter Schutz vor diesen undeklarierten Crawlern geboten wird.
Als Reaktion auf die Vorwürfe von Cloudflare hat Perplexity energisch widersprochen und die Führung von Cloudflare als „entweder gefährlich falsch informiert über die Grundlagen der KI oder einfach mehr Schein als Sein“ bezeichnet. Perplexity stellte in einem Beitrag klar, dass seine KI-Agenten anders als traditionelle Web-Crawler funktionieren. Das Unternehmen gibt an, dass seine KI, wenn ein Benutzer eine Frage stellt, die aktuelle Informationen erfordert, relevante Websites aufsucht, den Inhalt liest und eine maßgeschneiderte Zusammenfassung bereitstellt, wobei betont wird, dass dieser Inhalt nicht zu Trainingszwecken gespeichert, sondern sofort zur Beantwortung der Benutzeranfrage verwendet wird. Perplexity deutete auch an, dass Cloudflare seinen legitimen Traffic möglicherweise mit nicht verwandten Anfragen von Drittanbieterdiensten wie BrowserBase verwechselt.
Dieser Streit unterstreicht eine wachsende Spannung im digitalen Ökosystem, wo KI-Unternehmen riesige Datenmengen für ihre Modelle benötigen, während Inhaltsersteller und Publisher kontrollieren möchten, wie auf ihr geistiges Eigentum zugegriffen und es monetarisiert wird. Die Wirksamkeit von robots.txt
als freiwilliges Protokoll wird im Zeitalter der KI zunehmend in Frage gestellt, was zu Forderungen nach robusteren Mechanismen führt, damit Inhaltseigentümer ihre Präferenzen bezüglich der KI-Datennutzung ausdrücken können. Cloudflares jüngste Initiative „Content Independence Day“, die über 2,5 Millionen Websites das Blockieren von KI-Trainings-Crawlern ermöglicht, unterstreicht den Wandel der Branche hin zu einer stärkeren Kontrolle für Inhaltsersteller.
Der Vorfall mit Perplexity ist nicht isoliert; andere KI-Firmen wie Anthropic sehen sich ähnlichen Anschuldigungen und rechtlichen Herausforderungen gegenüber, einschließlich einer Klage von Reddit wegen Content-Scrapings. Während einige KI-Unternehmen wie OpenAI Berichten zufolge die besten Praktiken und vorgeschlagenen Standards für Bot-Verhalten einhalten, unterstreicht die aktuelle Kontroverse die anhaltende Notwendigkeit klarer ethischer Richtlinien und technischer Lösungen, um KI-gesteuertes Web-Crawling verantwortungsvoll zu verwalten.