OpenAI vs. NYT: Millionen ChatGPT-Logs in Urheberrechtsstreit
OpenAI ist in einen bedeutenden Rechtsstreit mit der New York Times verwickelt, der von einem umstrittenen Kampf um den Zugang zu Millionen von ChatGPT-Benutzerkonversationen geprägt ist. Im Mittelpunkt der jüngsten Meinungsverschiedenheit steht die Forderung der Zeitung, im Rahmen ihrer laufenden Urheberrechtsklage gegen den KI-Giganten eine beispiellose Menge von 120 Millionen Chat-Protokollen zu durchsuchen. OpenAI wehrt sich jedoch dagegen und bietet stattdessen eine deutlich kleinere Teilmenge von 20 Millionen Protokollen an.
Die Times sucht diese umfangreichen Daten, um potenzielle Urheberrechtsverletzungen im Zusammenhang mit ihren Artikeln aufzudecken und sorgfältig zu dokumentieren, wie sich solche Vorfälle über einen Zeitraum von 23 Monaten entwickelt haben könnten. OpenAI warnt hingegen, dass die Erfüllung der umfassenden Forderung der Zeitung erhebliche technische und datenschutzrechtliche Risiken birgt. Das Unternehmen erklärt, dass diese Chat-Protokolle größtenteils unstrukturiert sind, oft mehr als 5.000 Wörter umfassen und häufig hochsensible persönliche Informationen, einschließlich Adressen und Passwörter, enthalten.
Bevor Daten geteilt werden könnten, müssten diese Protokolle einer sorgfältigen manuellen Überprüfung und Schwärzung unterzogen werden, um sensible Details zu entfernen. OpenAI schätzt, dass die Vorbereitung selbst der angebotenen 20 Millionen Protokolle etwa zwölf Wochen dauern würde, während die Verarbeitung der gesamten 120 Millionen etwa 36 Wochen in Anspruch nehmen würde. Dieser arbeitsintensive Prozess, so das Unternehmen, würde erhebliche Personal- und technische Ressourcen erfordern, da die Daten aus einem Offline-System gezogen werden müssen. OpenAI betont auch, dass die längere Aufbewahrung gelöschter Chats, wie von der Times’ Forderung impliziert, neue Schwachstellen für Datenlecks schaffen könnte.
Die Times hat die von OpenAI vorgeschlagene Begrenzung entschieden abgelehnt und behauptet, dass eine kleinere Stichprobe unzureichend wäre, um systematische Urheberrechtsverletzungen und langfristige Trends nachzuweisen, und besteht auf umfassendem Zugang, um ihren Fall aufzubauen. Als Antwort darauf zitiert OpenAI den Informatiker Taylor Berg-Kirkpatrick, der die statistische Gültigkeit einer 20-Millionen-Protokoll-Stichprobe unterstützt. Das KI-Unternehmen argumentiert, dass eine Ausweitung der Suche darüber hinaus unverhältnismäßig wäre und die Gerichtsverfahren unnötig verlängern würde.
Diese aktuelle Meinungsverschiedenheit entfaltet sich vor dem Hintergrund eines bedeutenden Gerichtsbeschlusses vom Juni 2025. Dieser Beschluss sah vor, dass OpenAI alle ChatGPT-Konversationen, einschließlich der von Benutzern gelöschten, aufbewahren muss. Die Anweisung folgte Anschuldigungen der Times und anderer Verlage, dass OpenAI durch automatisierte Löschprozesse Beweismittel vernichte.
OpenAI kritisierte diesen Beschluss vehement und beschrieb ihn als schwerwiegenden Eingriff in die Privatsphäre von Hunderten Millionen Benutzern. Das Unternehmen argumentierte vor Gericht, dass viele Chats “zutiefst persönliche” Informationen enthalten, die von Finanzdaten bis hin zu privaten Angelegenheiten wie der Hochzeitsplanung reichen. Darüber hinaus sind auch Geschäftskunden betroffen, die die API von OpenAI zur Verarbeitung sensibler Unternehmensdaten nutzen. OpenAI behauptet, dass der Beschluss sie zwingt, ihre eigenen Datenschutzrichtlinien zu verletzen und das Benutzervertrauen grundlegend untergräbt.
Während der Richter Grund zu der Annahme fand, dass Beweismittel durch Löschung verloren gehen könnten, und vorsorglich eine umfassende Datenaufbewahrung anordnete, bestreitet OpenAI den Vorwurf der vorsätzlichen Beweisvernichtung. Das Unternehmen behauptet, es gebe keinen Beweis dafür, dass rechtsverletzende Inhalte absichtlich gelöscht wurden, weder automatisch noch manuell, und weist die Vorstellung, dass Benutzer Chats massenhaft löschen, um rechtliche Risiken zu verbergen, als spekulativ zurück.
Die Nachricht von der Gerichtsentscheidung verbreitete sich schnell auf Social-Media-Plattformen und löste bei den Benutzern große Besorgnis aus. Experten auf LinkedIn und X (ehemals Twitter) warnten vor neuen Sicherheitsrisiken und rieten davon ab, sensible Daten mit ChatGPT zu teilen. Einige Unternehmen interpretierten die Anordnung sogar als potenziellen Vertragsbruch durch OpenAI, da sie befürchteten, dass vertrauliche Daten nun länger gespeichert und möglicherweise Dritten zugänglich gemacht würden.