Reddit blockiert Internet Archive: Angst vor KI-Scraping?
Reddit hat eine erhebliche Einschränkung der Fähigkeit des Internet Archive bekannt gegeben, seine Plattform zu indexieren. Dieser Schritt wurde durch die Sorge ausgelöst, dass Unternehmen für künstliche Intelligenz Reddit-Daten über die Wayback Machine illegal scrapen. Mit sofortiger Wirkung wird die beliebte Social-Media-Plattform das Internet Archive weitgehend daran hindern, Detailseiten von Beiträgen, Benutzerkommentare und individuelle Profile zu crawlen. Der einzige Inhalt, der für die Archivierung zugänglich bleibt, ist die Reddit.com-Startseite, was bedeutet, dass das Internet Archive hauptsächlich darauf beschränkt sein wird, zu dokumentieren, welche Schlagzeilen und Beiträge an einem bestimmten Tag an Bedeutung gewannen.
Laut Tim Rathschmidt, einem Sprecher von Reddit, rührt die Entscheidung von beobachteten Fällen her, in denen KI-Unternehmen gegen Plattformrichtlinien, einschließlich der eigenen von Reddit, verstoßen haben, indem sie Daten aus der Wayback Machine extrahierten. Während Reddit die wichtige Rolle des Internet Archive bei der Bewahrung des offenen Webs anerkennt, behauptet es, dass nicht alle Inhalte so archiviert werden sollten, dass ein solcher Missbrauch erleichtert wird. Rathschmidt erklärte, dass Reddit den Zugriff auf seine Daten einschränken werde, um seine Nutzer zu schützen, bis das Internet Archive seine Website angemessen verteidigen und die Einhaltung der Plattformrichtlinien – insbesondere in Bezug auf den Datenschutz der Nutzer und den ordnungsgemäßen Umgang mit gelöschten Inhalten – gewährleisten kann.
Die Implementierung dieser neuen Beschränkungen begann am 11. August 2025. Reddit bestätigte, das Internet Archive im Voraus über die Änderungen informiert zu haben. Diese jüngste Einschränkung markiert ein weiteres Kapitel in Reddits fortlaufenden Bemühungen, den Zugriff auf seinen riesigen Schatz an nutzergenerierten Inhalten zu kontrollieren, insbesondere da KI-Unternehmen ihre Datenerfassungsbemühungen intensiviert haben. Die Plattform hat eine dokumentierte Geschichte der Einschränkung des Zugriffs für automatisierte Datenextraktionstools, was oft die Bereitschaft signalisiert, solche Daten nur im Rahmen kommerzieller Vereinbarungen bereitzustellen.
Tatsächlich hat Reddit aktiv Strategien entwickelt, um den Wert seiner Daten in der aufstrebenden KI-Landschaft zu nutzen. Anfang letzten Jahres schloss das Unternehmen einen bemerkenswerten Deal mit Google ab, der dem Tech-Riesen Zugriff auf Reddits Inhalte sowohl für die Google-Suche als auch für das Training von KI-Modellen gewährte. Einige Monate später begann Reddit, große Suchmaschinen daran zu hindern, seine Daten zu crawlen, es sei denn, sie gingen ähnliche Zahlungsvereinbarungen ein. Das Unternehmen führte auch seine umstrittenen API-Änderungen von 2023, die zu weit verbreiteten Protesten und der Schließung mehrerer beliebter Drittanbieter-Apps führten, auf den Missbrauch dieser APIs zum Training von KI-Modellen zurück.
Die Monetarisierung seiner Daten für KI-Zwecke bleibt ein zentrales Thema für Reddit. Neben der Partnerschaft mit Google schloss das Unternehmen auch einen KI-Deal mit OpenAI ab. Seine Haltung gegen die unautorisierte Datennutzung bleibt jedoch fest, was durch eine im Juni gegen Anthropic eingereichte Klage belegt wird. Reddit behauptet, dass Anthropic trotz früherer Zusicherungen, solche Aktivitäten einzustellen, weiterhin Daten von seiner Plattform extrahiert habe.
Das Internet Archive, dessen Mission es ist, eine digitale Aufzeichnung von Websites und anderen kulturellen Artefakten zu führen, äußerte sich nicht sofort zu Reddits neuen Beschränkungen. Diese Entwicklung verdeutlicht die wachsende Spannung zwischen den Prinzipien der Bewahrung des offenen Webs und dem kommerziellen Imperativ von Plattformen, die versuchen, ihre Daten im Zeitalter der generativen KI zu kontrollieren und zu monetarisieren.