Reddit sperrt Wayback Machine: KI-Firmen stehlen Daten

Gizmodo

Reddit hat eine umfassende Blockade gegen die Wayback Machine des Internet Archive eingeleitet, die diese daran hindert, den Großteil der Inhalte der Social-Media-Plattform zu indexieren. Diese entschlossene Maßnahme erfolgt, nachdem Reddit festgestellt hat, dass Künstliche-Intelligenz-Unternehmen angeblich seine Lizenzierungsrichtlinien umgehen, indem sie wertvolle Nutzerdaten aus den digitalen Archiven der gemeinnützigen Organisation schürfen.

Der Schritt unterstreicht Reddits sich entwickelnde Strategie, eine größere Kontrolle über seine proprietären Daten auszuüben, insbesondere in einer Ära, in der solche Informationen für das Training von KI-Modellen sehr begehrt sind. Obwohl Reddit sich offen für die Nutzung seiner umfangreichen benutzergenerierten Inhalte durch KI-Firmen gezeigt hat, besteht es darauf, dass ein solcher Zugriff vergütet werden muss. Das Unternehmen hatte zuvor angedeutet, „gutgläubige Akteure“ wie das Internet Archive nicht einzuschränken, doch seine Haltung hat sich nun geändert. Reddit glaubt nun, dass einige Entitäten, vielleicht unbeabsichtigt, KI-Unternehmen dabei unterstützen, direkte Lizenzvereinbarungen und die damit verbundenen Gebühren zu umgehen. Diese abrupte Änderung hebt die wachsende Bedeutung der Datenlizenzierung als kritische Einnahmequelle in der schnell expandierenden KI-Branche hervor.

Das Internet Archive, eine renommierte gemeinnützige Organisation, widmet sich dem Aufbau einer umfassenden digitalen Bibliothek von Online-Inhalten, die Milliarden von Webseiten sowie Millionen von Büchern, Videos und Softwareprogrammen umfasst. Sein Flaggschiff-Tool, die Wayback Machine, ermöglicht es Benutzern, historische Schnappschüsse von Webseiten zu erfassen und erneut aufzurufen, wobei diese genau so erhalten bleiben, wie sie an bestimmten Daten erschienen sind. Diese Funktionalität dient seit langem als wichtige Ressource für Forscher, Historiker und die breite Öffentlichkeit, die auf archivierte Internetinhalte zugreifen möchten.

Reddit behauptet, Beweise zu besitzen, die darauf hindeuten, dass bestimmte KI-Unternehmen die Wayback Machine ausnutzen, um seine etablierten Richtlinien zu umgehen und so benutzergenerierte Inhalte ohne entsprechende Genehmigung zu schürfen. In einer Erklärung erklärte ein Reddit-Sprecher: „Das Internet Archive bietet einen Dienst für das offene Web an, aber wir wurden auf Fälle aufmerksam gemacht, in denen KI-Unternehmen Plattformrichtlinien, einschließlich unserer, verletzen und Daten von der Wayback Machine schürfen.“ Der Sprecher fügte hinzu, dass Reddit den Zugriff auf seine Daten einschränkt, um seine Benutzer zu schützen, bis das Internet Archive „seine Website verteidigen und die Plattformrichtlinien (z.B. die Achtung der Benutzerprivatsphäre, bezüglich des Löschens entfernter Inhalte) einhalten kann.“

Die neuen Beschränkungen bedeuten, dass die Wayback Machine keine Beitragsdetailseiten, einzelnen Kommentare oder Benutzerprofile mehr durchsuchen kann. Ihre Indexierungsfähigkeiten werden sich nun ausschließlich auf die Startseite von Reddit beschränken. Diese Einschränkungen begannen am 11. August 2025 mit der Umsetzung, wobei Reddit bestätigte, dass es das Internet Archive vor den bevorstehenden Änderungen gewarnt hatte. Das Internet Archive reagierte nicht sofort auf Anfragen zur Stellungnahme zu Reddits Maßnahmen.

Diese Aktion ist die jüngste in einer Reihe von Schritten, die Reddit in den letzten Jahren unternommen hat, um den Zugriff auf seine riesigen Datenreserven zu verschärfen. Während das Unternehmen weiterhin offen für die Lizenzierung seiner Daten ist, hat es seine Bemühungen verstärkt, gegen Entitäten vorzugehen, die versuchen, ohne Vergütung darauf zuzugreifen. Diese Strategie hat bereits zu millionenschweren Vereinbarungen mit großen Technologieunternehmen, darunter Google und OpenAI, geführt. Die Partnerschaft mit Google umfasst beispielsweise sowohl die Suchindexierung als auch die Bereitstellung von KI-Trainingsdaten, ein Deal, dem anschließend Reddit folgte, indem es andere Suchmaschinen daran hinderte, seine aktuellen Beiträge in ihren Ergebnissen anzuzeigen. Darüber hinaus leitete Reddit im Juni rechtliche Schritte gegen das KI-Startup Anthropic ein und beschuldigte es der unbefugten Datenextraktion, was sein Engagement zur Durchsetzung seiner Datenzugriffsrichtlinien weiter unterstreicht.