KI-Krieg im Netz: Wer kontrolliert die digitale Zukunft?

Gizmodo

Die digitale Landschaft wird derzeit von einem eskalierenden Konflikt erfasst, der dramatisch als „Der Krieg um das Web“ bezeichnet wird. Ein prominenter Internet-Gatekeeper, Cloudflare, wirft dabei einem aufstrebenden KI-Star, Perplexity AI, öffentlich vor, die grundlegenden Regeln des Internets systematisch zu missachten. Dieser explosive Streit, von Gizmodo hervorgehoben, droht die Art und Weise neu zu definieren, wie Informationen online abgerufen und vergütet werden, mit tiefgreifenden Auswirkungen für Verlage, KI-Entwickler und Nutzer gleichermaßen.

Im Mittelpunkt des Streits stehen Behauptungen von Cloudflare, einem großen Internet-Infrastrukturunternehmen, dass Perplexity AI „Stealth Scraping“-Taktiken angewendet hat. Cloudflare behauptet, dass Perplexity’s automatisierte Systeme, oder Bots, absichtlich robots.txt-Dateien umgehen – die digitalen „Zutritt verboten“-Schilder, die Websites verwenden, um festzulegen, welche Inhalte gecrawlt und indiziert werden dürfen. Laut Cloudflares Analyse ignorieren Perplexity’s Crawler nicht nur diese expliziten Anweisungen, sondern verschleiern auch ihre Identität, indem sie Benutzer-Agenten ändern, IP-Adressen rotieren und autonome Systemnummern (ASNs) verschieben, um der Erkennung zu entgehen und auf Inhalte gegen den Willen der Website-Betreiber zuzugreifen. Cloudflares Bericht, der Anfang dieser Woche veröffentlicht wurde, beschrieb detailliert, wie diese Bots angeblich legitimen Browser-Traffic nachahmen und ihre Methoden bei Blockierung anpassen, ähnlich wie adaptive Malware.

Perplexity AI, eine KI-gesteuerte Suchanwendung, die von namhaften Investoren unterstützt wird, hat die Vorwürfe von Cloudflare vehement dementiert. Ein Sprecher von Perplexity wies Cloudflares Blogbeitrag als „Verkaufsmasche“ ab und behauptete, der von Cloudflare identifizierte Bot sei nicht ihrer oder habe keinen Inhalt abgerufen. Perplexity bekräftigt, dass seine KI-Assistenten als „benutzergesteuerte Agenten“ agieren, die Informationen in Echtzeit auf Basis von Benutzeranfragen abrufen, ähnlich wie ein Mensch das Web durchsucht, anstatt wahlloses Massen-Scraping für das Modelltraining zu betreiben. Sie argumentieren, dass Cloudflare die Nuancen der modernen KI-gesteuerten Informationsbeschaffung möglicherweise missversteht.

Dieser Konflikt ist beispielhaft für eine viel breitere Spannung, die sich im gesamten digitalen Ökosystem zusammenbraut. Verlage und Content-Ersteller äußern sich zunehmend kritisch über die wahrgenommene Ausbeutung ihres geistigen Eigentums durch KI-Unternehmen, die oft riesige Mengen an Webdaten aufnehmen, um ihre großen Sprachmodelle (LLMs) ohne Zustimmung oder Vergütung zu trainieren. Ein kürzliches Treffen von über 80 Medienmanagern in New York, einberufen vom IAB Tech Lab, unterstrich diesen wachsenden Widerstand, wobei Vertreter von Google und Meta den Ruf nach neuen Rahmenbedingungen für den KI-Inhaltszugriff unterstützten. Dieser Gipfel zielte darauf ab, eine LLM Content Ingest API zu entwickeln, die die Zustimmung der Verlage durchsetzen würde, und über freiwillige Richtlinien hinauszugehen, die viele KI-Unternehmen Berichten zufolge ignoriert haben.

Tatsächlich geht die Kontroverse über Perplexity hinaus. Berichte sind aufgetaucht, die Metas systematisches Scraping von etwa 6 Millionen einzigartigen Websites zur Schulung seiner KI-Modelle offenbaren, wobei angeblich Schutzprotokolle umgangen und Inhalte aus verschiedenen Quellen, einschließlich Nachrichtenorganisationen und urheberrechtlich geschütztem Material, gesammelt wurden. Cloudflare selbst war in dieser sich entwickelnden Landschaft proaktiv und hat kürzlich im Juli 2025 einen „Pay-per-Crawl“-Dienst eingeführt, der es Content-Erstellern ermöglicht, KI-Crawlern den Zugang zu berechnen, sowie ein kostenloses Tool, um KI-Bots vollständig zu blockieren.

Der „Krieg um das Web“ ist letztlich ein Kampf um Kontrolle, Vergütung und die Definition von Fair Use im Zeitalter der künstlichen Intelligenz. Da KI-Modelle immer ausgefeilter und datenhungriger werden, wird das Ergebnis dieses Streits zwischen Cloudflare und Perplexity sowie die breiteren Branchen-Diskussionen, die er entfacht, zweifellos die zukünftigen Wirtschaftsmodelle von Online-Inhalten und die grundlegenden Regeln des Internets prägen. Rechtsexperten beobachten diese Entwicklungen genau, da sie die Grenzen bestehender Gesetze auf die Probe stellen und die Notwendigkeit neuer ethischer und technischer Standards für KI-Datenpraktiken beschleunigen könnten.