Cloudflare wirft Perplexity "heimliches Crawling" blockierter Seiten vor

Marketingaiinstitute

Cloudflare erhebt “Heimliches Crawling”-Vorwürfe gegen KI-Suchmaschine Perplexity

Das digitale Schlachtfeld darüber, wie Künstliche-Intelligenz-Unternehmen auf Online-Inhalte zugreifen und diese nutzen, hat sich dramatisch zugespitzt. Der Internet-Infrastrukturriese Cloudflare hat dem KI-gestützten Antwort-Engine Perplexity öffentlich vorgeworfen, “heimliches Crawling” zu betreiben, um Website-Zugriffsbeschränkungen zu umgehen. Dieser Streit verdeutlicht eine grundlegende Spannung zwischen dem Wunsch der Inhaltsersteller, ihr geistiges Eigentum zu kontrollieren, und dem Datenhunger der KI-Firmen.

Cloudflares Anschuldigungen, die in einem kürzlich veröffentlichten Blogbeitrag detailliert beschrieben wurden, besagen, dass Perplexity täuschende Taktiken angewendet hat, um auf Inhalte von Websites zuzugreifen, die ihre Crawler explizit blockiert haben. Das Unternehmen behauptet, dass, wenn Perplexitys deklarierte Bots, “PerplexityBot” und “Perplexity-User”, auf Netzwerkblockaden oder robots.txt-Anweisungen stoßen – dem Standardprotokoll, das Web-Crawlern Anweisungen gibt, worauf nicht zugegriffen werden soll –, die Systeme der KI-Firma angeblich ihre Identität verschleiern. Dies beinhaltet das Ändern von User Agents, um generische Browser wie Google Chrome unter macOS zu imitieren, das Rotieren von IP-Adressen und das Ändern von Autonomen Systemnummern (ASNs), um die Erkennung zu umgehen. Cloudflare berichtete, Millionen täglicher Anfragen von diesen “heimlichen Agenten” beobachtet zu haben, die versuchten, Standard-Anti-Bot-Schutzmaßnahmen zu umgehen.

Die Anschuldigungen stammen von Beschwerden von Cloudflare-Kunden, die feststellten, dass Perplexity immer noch auf ihre Inhalte zugriff, obwohl sie sowohl robots.txt-Regeln als auch Web Application Firewall (WAF)-Blockaden implementiert hatten. Um diese Behauptungen zu überprüfen, führte Cloudflare kontrollierte Tests auf neu erstellten, nicht indizierten Domains mit strengen Crawling-Verboten durch. Trotz dieser expliziten Blockaden konnte Perplexity Berichten zufolge Inhalte von diesen eingeschränkten Seiten abrufen und zusammenfassen, was auf eine bewusste Umgehung etablierter Webprotokolle hindeutet. Cloudflare betonte, dass das Internet auf Vertrauen aufgebaut ist und von legitimen Crawlern erwartet wird, dass sie transparent sind und sich an Website-Anweisungen halten. Als Reaktion auf das beobachtete Verhalten hat Cloudflare Perplexity als verifizierten Bot de-listet und seine verwalteten Regeln aktualisiert, um diese heimliche Crawling-Aktivität zu blockieren. Dieser Schritt steht im Einklang mit Cloudflares breiterer “Content Independence Day”-Initiative, die im Juli gestartet wurde und darauf abzielt, Publishern mehr Kontrolle über KI-Crawler zu geben, einschließlich Optionen, den Zugriff zu blockieren oder sogar Gebühren für Content-Scraping zu erheben.

Perplexity hat jedoch die Anschuldigungen von Cloudflare vehement dementiert und den Bericht als “peinliches” und “disqualifizierendes” “Verkaufsgespräch” abgetan. Das KI-Unternehmen behauptet, dass Cloudflare die Natur moderner KI-Assistenten grundlegend missversteht, und argumentiert, dass ihr System kein massenhaftes, wahlloses Crawling wie traditionelle Suchmaschinen betreibt. Stattdessen behauptet Perplexity, dass seine Plattform Webseiten “auf Abruf” als Reaktion auf spezifische Benutzerfragen abruft und als ein vom Benutzer initiierter Agent statt als autonomer Bot fungiert. Perplexity behauptet, dass Cloudflares Systeme unzureichend sind, um zwischen legitimen KI-Assistenten und bösartigem Scraping zu unterscheiden, was zu einer Fehlklassifizierung von verantwortungsvollem, benutzergesteuertem Traffic führt. Das Unternehmen bestreitet auch, dass der von Cloudflare identifizierte spezifische “versteckte User Agent” ihnen gehört oder dass er auf Inhalte zugegriffen hat.

Dieser Konflikt unterstreicht die eskalierenden Spannungen zwischen KI-Entwicklern und Inhaltserstellern bezüglich Datenerfassung und geistigen Eigentumsrechten. Perplexity sah sich in der Vergangenheit ähnlichen Vorwürfen wegen unethischen Web-Scrapings und der Nutzung von Inhalten gegenüber, einschließlich Drohungen mit rechtlichen Schritten von Entitäten wie der BBC und Plagiatsvorwürfen von Publikationen wie Wired und Forbes. Da sich KI-Modelle ständig weiterentwickeln und tiefer in die Art und Weise integriert werden, wie Benutzer auf Informationen zugreifen, wird sich die Debatte über faire Vergütung, transparente Datenpraktiken und die Definition von “Web-Crawling” selbst intensivieren, was möglicherweise die grundlegenden Regeln des offenen Internets neu gestalten könnte.