Reddit blockiert Internet Archive wegen KI-Daten-Scraping

Arstechnica

Reddit hat Maßnahmen ergriffen, um das Internet Archive (IA) daran zu hindern, seine Inhalte umfassend zu indexieren. Begründet wird dies mit der Sorge, dass künstliche Intelligenz-Firmen, denen das direkte Scraping von Reddit bereits untersagt ist, stattdessen Daten aus dem archivierten Material des IA gesammelt haben. Diese bedeutende Änderung bedeutet, dass die Wayback Machine des Internet Archive, die zuvor als Teil ihrer umfassenden Mission zur Bewahrung des Internets einen zuverlässigen Überblick über Reddit-Seiten, Benutzerprofile und Kommentare bot, nun nur noch Screenshots der Reddit-Startseite archivieren wird. Diese drastische Einschränkung des Umfangs begrenzt die Nützlichkeit des Archivs effektiv auf einen täglichen Schnappschuss beliebter Beiträge und Schlagzeilen, und dient nicht länger als detailliertes Backup für gelöschte Inhalte, als Fenster in verschiedene Reddit-Subkulturen oder als Aufzeichnung individueller Benutzeraktivitäten.

Obwohl Reddit die spezifischen KI-Firmen, die seiner Meinung nach Daten von der Wayback Machine scrapen, nicht öffentlich genannt hat, bestätigte Unternehmenssprecher Tim Rathschmidt, dass Reddit „Fälle bekannt sind, in denen KI-Unternehmen Plattformrichtlinien, einschließlich unserer, verletzen und Daten von der Wayback Machine scrapen“. Rathschmidt schlug vor, dass das Internet Archive Maßnahmen ergreifen könnte, um sich besser gegen solche KI-Datensammlungen abzusichern, was Reddit möglicherweise dazu veranlassen würde, seine Beschränkungen zu überdenken. Berichten zufolge werden diese Einschränkungen des Zugriffs des IA auf Reddit-Daten plattformweit verstärkt.

Über die unmittelbare Sorge vor KI-Scraping hinaus nutzt Reddit diese Gelegenheit auch, um langjährige Datenschutzprobleme anzugehen. Das Unternehmen argumentiert, dass die Beschränkungen gerechtfertigt seien, da die Wayback Machine problematisch Inhalte archiviert, die Benutzer später gelöscht haben. Rathschmidt erklärte: „Solange sie ihre Website nicht verteidigen und die Plattformrichtlinien (z.B. die Achtung der Benutzerprivatsphäre, bzgl. des Löschens entfernter Inhalte) einhalten können, schränken wir einen Teil ihres Zugriffs auf Reddit-Daten ein, um die Redditor zu schützen.“

Historisch gesehen haben einige Redditor die Wayback Machine genutzt, um gelöschte Kommentare oder Threads zu recherchieren. Diskussionen in sozialen Medien deuten jedoch darauf hin, dass zahlreiche andere Tools existieren, um gelöschte Beiträge aufzudecken oder Benutzeraktivitäten zu untersuchen, wobei einige vorschlagen, dass die Wayback Machine nicht immer die intuitivste Plattform für diese Zwecke war. Redditor haben sich auch in Zeiten signifikanter Plattformänderungen, die zum Entfernen von Inhalten führen könnten, an Ressourcen wie das Internet Archive gewandt. Bemerkenswerterweise spielten Archive im Jahr 2023, als Änderungen an Reddits öffentlicher API beliebte Subreddits aufzulösen drohten, eine entscheidende Rolle bei der Bewahrung von Inhalten, bevor diese verloren gingen.

Das Internet Archive hat noch nicht angegeben, ob es aktiv an Lösungen arbeitet, um die Beschränkungen von Reddit aufheben zu lassen. Mark Graham, Direktor der Wayback Machine, bemerkte, dass das IA „eine langjährige Beziehung zu Reddit“ habe und weiterhin in „laufende Diskussionen über diese Angelegenheit“ verwickelt sei.

Es erscheint sehr wahrscheinlich, dass Reddits Handlungen von finanziellen Motivationen getrieben sind, um KI-Firmen daran zu hindern, seine Inhalte über Drittanbieter-Archive auszunutzen und stattdessen lukrativere direkte Lizenzvereinbarungen zu fördern. Reddit hat kürzlich bedeutende Geschäfte mit großen Akteuren wie OpenAI und Google abgeschlossen. Während die Bedingungen der OpenAI-Vereinbarung unoffenbart bleiben, wurde der Google-Deal Berichten zufolge auf 60 Millionen Dollar geschätzt. Insgesamt erwartet Reddit, in den nächsten drei Jahren mehr als 200 Millionen Dollar aus solchen Lizenzgeschäften zu generieren, was die hohen Einsätze bei der Kontrolle des Zugriffs auf seinen riesigen Schatz an nutzergenerierten Daten unterstreicht.