Perplexity AI: Vorwurf des heimlichen Web-Scrapings
In einer signifikanten Eskalation des anhaltenden Kampfes um KI-Inhalts-Scraping hat der Internet-Infrastruktur-Gigant Cloudflare das KI-Such-Startup Perplexity AI öffentlich beschuldigt, „Stealth-Crawler“ einzusetzen, um Website-Beschränkungen zu umgehen und illegal Daten zu ernten. Die Vorwürfe, detailliert in einem Cloudflare-Bericht vom Montag, 4. August 2025, legen nahe, dass Perplexitys Bots sich aktiv tarnen, um weit verbreitete Web-Protokolle, einschließlich robots.txt
-Anweisungen, zu missachten.
Cloudflares Untersuchung, die durch Kundenbeschwerden ausgelöst wurde, ergab, dass selbst wenn Websites robots.txt
-Dateien und spezifische Firewall-Regeln implementierten, um Perplexitys offiziell deklarierte Crawler (wie PerplexityBot
) zu blockieren, Inhalte weiterhin vom KI-Dienst abgerufen wurden. Laut Cloudflare schienen Perplexitys Systeme auf nicht deklarierte Bots umzuschalten, die legitimen Webbrowser-Verkehr nachahmten, häufig IP-Adressen wechselten und User-Agents änderten, um der Erkennung zu entgehen. Cloudflare-Ingenieure verglichen dieses Verhalten mit „adaptiver Malware“, und Cloudflare-CEO Matthew Prince verglich die Taktiken kontrovers mit denen, die von „nordkoreanischen Hackern“ verwendet werden.
Perplexity AI, eine Suchmaschine, die von Investoren wie Jeff Bezos unterstützt wird, synthetisiert Antworten aus Webinhalten und liefert Zitate, mit dem Ziel einer transparenten und faktischen Informationsbeschaffung. Ein Sprecher von Perplexity, Jesse Dwyer, wies die Behauptungen von Cloudflare jedoch als irreführend zurück, indem er erklärte, dass „tatsächlich kein Inhalt abgerufen wurde“ und suggerierte, dass der fragliche Verkehr nicht von ihren Systemen stammte. Diese Antwort kommt inmitten einer Geschichte ähnlicher Anschuldigungen gegen das KI-Unternehmen.
Dies ist nicht Perplexity AIs erste Konfrontation mit Vorwürfen aggressiven Scrapings. Im Juni 2024 kritisierte Forbes das Unternehmen öffentlich, weil es angeblich einen ganzen Artikel, einschließlich Illustrationen, mit minimaler Quellenangabe kopiert hatte. Wired berichtete ebenfalls im Juni 2024, dass Perplexity Inhalte von Websites scrapt, die solche Aktionen explizit verboten hatten, und dabei beobachtet wurde, wie Artikel ungenau paraphrasiert wurden. Große Medienorganisationen haben ebenfalls rechtliche Schritte eingeleitet; The New York Times erließ im Oktober 2024 eine Unterlassungserklärung, und die BBC drohte im Juni 2025 mit rechtlichen Schritten, wobei beide Perplexity des unbefugten Inhaltsgebrauchs und der Urheberrechtsverletzung beschuldigten. Dow Jones und New York Post reichten ebenfalls im Juni 2024 Klage ein. Perplexity hat im Allgemeinen stets behauptet, dass es öffentliche Informationen unter dem, was es für eine faire Nutzung hält, „aggregiert“ und keine großen Sprachmodelle von Grund auf trainiert, sondern das Web für Zusammenfassungen indiziert.
Als Reaktion auf das wachsende Problem des KI-Scrapings hat Cloudflare proaktive Maßnahmen ergriffen. Das Unternehmen hat Perplexity AI als „verifizierten Bot“ delistet und seine Systeme aktualisiert, um diese „Stealth-Crawling“-Aktivitäten aktiv zu blockieren. Cloudflare bietet Website-Betreibern auch Tools an, um KI-Trainings-Crawler einfach zu blockieren, und hat im März 2025 sogar eine „AI Labyrinth“-Funktion eingeführt, die darauf abzielt, sich fehlverhaltende Bots in einem Labyrinth aus KI-generiertem Junk-Inhalt zu fangen, deren Ressourcen zu verschwenden und unautorisiertes Scraping abzuschrecken. Cloudflares CEO hat die Notwendigkeit betont, dass KI-Firmen ethische Standards annehmen, und gewarnt, dass anhaltende Umgehung zu breiteren Blockaden führen könnte.
Der Streit unterstreicht eine grundlegende Spannung im KI-Zeitalter: KI-Entwickler benötigen riesige Datenmengen, um ihre Modelle zu trainieren, während Inhaltsverleger ihr geistiges Eigentum kontrollieren und monetarisieren möchten. Während robots.txt
seit langem als freiwilliges Protokoll für Web-Crawler dient, bleiben die ethischen und rechtlichen Auswirkungen der Missachtung dieser Anweisungen für KI-Training und Inhaltsgenerierung ein heiß diskutiertes Thema, das möglicherweise Rufe nach Branchenregulierung und neuen rechtlichen Rahmenbedingungen beschleunigen wird.