Cloudflare wirft Perplexity verdecktes Web-Crawling vor

Arstechnica

Der Internet-Infrastrukturriese Cloudflare hat dem KI-Suchmaschine Perplexity vorgeworfen, “verdeckte Taktiken” anzuwenden, um explizite Anweisungen von Website-Betreibern gegen Web-Crawling zu umgehen, so ein Bericht vom 4. August 2025. Diese Anschuldigungen, die in einem Cloudflare-Blogbeitrag detailliert beschrieben werden, behaupten, dass Perplexity nicht deklarierte Crawler verwendet, die den normalen Browser-Traffic nachahmen, um Inhalte von Websites zu scrapen, die ihre offiziellen Bots über robots.txt-Dateien blockiert haben.

Cloudflare, das einen erheblichen Teil des Web-Traffics verwaltet, erklärte, diese verdeckten Operationen durch die Überwachung ungewöhnlicher Muster in Benutzeragenten und IP-Adressen entdeckt zu haben. Perplexitys deklarierte Crawler wie “PerplexityBot” werden oft von Websites blockiert. Als Reaktion darauf behauptet Cloudflare, dass Perplexity zu heimlicheren Methoden übergegangen ist, einschließlich der Rotation von IP-Adressen über verschiedene Anbieter und der Änderung von Benutzeragenten, um als Standard-Chrome-Browser unter macOS zu erscheinen, wodurch automatisiertes Scraping effektiv als menschliche Besuche getarnt wird. Cloudflares CEO, Matthew Prince, verglich Perplexitys Verhalten mit dem von “nordkoreanischen Hackern” und betonte den Vertrauensbruch in der Internet-Etikette.

Dies ist nicht das erste Mal, dass Perplexity mit solchen Anschuldigungen konfrontiert wird. Frühere Berichte von Wired und Forbes behaupteten ebenfalls ähnliche Scraping-Praktiken trotz expliziter Blockierungen. Die Kontroverse verdeutlicht eine wachsende Spannung zwischen KI-Unternehmen, die enorme Datenmengen für ihre Modelle benötigen, und Publishern, die ihr geistiges Eigentum schützen und die Nutzung ihrer Inhalte kontrollieren möchten. Die Frage des zustimmungsbasierten Scrapings hat sich zu rechtlichen Herausforderungen entwickelt, wobei die BBC im Juni 2025 eine Unterlassungserklärung an Perplexity sandte, die die Löschung des gescrapten Inhalts und und eine Entschädigung forderte. Dow Jones hat ebenfalls Klagen wegen ähnlicher Bedenken eingeleitet.

Die “robots.txt”-Datei ist ein langjähriger Webstandard, der dazu dient, die Präferenzen von Website-Betreibern darüber zu kommunizieren, wie Web-Crawler mit ihren Seiten interagieren sollen. Obwohl nicht rechtsverbindlich, gilt sie weithin als ethische Richtlinie für das Web-Crawling. Cloudflare argumentiert, dass Perplexitys angebliches Vorgehen diese etablierten Web-Crawling-Normen verletzt.

Als Reaktion auf diese Erkenntnisse und wachsende Bedenken hat Cloudflare Perplexity als “verifizierten Bot” delisted und neue verwaltete Regeln implementiert, um diese verdeckte Crawling-Aktivität automatisch zu blockieren. Cloudflare bewegt sich auch auf eine “Pay per Crawl”-Initiative zu, die KI-Crawler standardmäßig für neue Websites in ihrem Netzwerk blockiert, es sei denn, es wird eine explizite Genehmigung erteilt, und potenziell Content-Besitzern ermöglichen wird, den Zugang zu ihren Daten für das KI-Training zu monetarisieren. Diese Umstellung zielt darauf ab, Publishern mehr Kontrolle zu geben und ein transparenteres Wirtschaftsmodell für die KI-Datenerfassung zu etablieren.

Perplexity hat jedoch Cloudflares Behauptungen dementiert, wobei ein Sprecher erklärte, dass “tatsächlich keine Inhalte zugänglich gemacht wurden” und vorschlug, dass der fragliche Traffic nicht von ihren Systemen stammte. Nichtsdestotrotz unterstreicht dieser anhaltende Streit die komplexe ethische und rechtliche Landschaft, die sich entwickelt, während KI-Technologien sich weiterentwickeln und die Art und Weise, wie Informationen online abgerufen und genutzt werden, neu gestalten.

Cloudflare wirft Perplexity verdecktes Web-Crawling vor - OmegaNext KI-Nachrichten