KI-Synthetische Daten: Innovation trifft Urheberrechtssorgen
Das rasante Tempo der Entwicklung künstlicher Intelligenz steht vor einer drohenden Herausforderung: einem potenziellen Mangel an hochwertigen Trainingsdaten. Da Websites zunehmend Barrieren für die Datenerfassung errichten und bestehende Online-Inhalte gierig abgegriffen werden, um KI-Modelltraining zu befeuern, wächst die Sorge, dass die Quelle brauchbarer Informationen bald versiegen könnte. Die vorgeschlagene Lösung der Branche wird immer deutlicher: synthetische Daten.
„In der Branche wird in letzter Zeit viel über synthetische Daten gesprochen“, erklärte Sebastien Bubeck, technischer Mitarbeiter bei OpenAI, während der jüngsten GPT-5-Veranstaltung des Unternehmens. Bubeck unterstrich deren zentrale Rolle für die Zukunft von KI-Modellen, ein Gefühl, das von OpenAI-CEO Sam Altman geteilt wurde, der seine Begeisterung für „viel mehr, das noch kommen wird“ zum Ausdruck brachte.
Die Aussicht auf eine starke Abhängigkeit von KI-generierten Daten ist den Kreativindustrien jedoch nicht entgangen. Reid Southern, Filmkonzeptkünstler und Illustrator, vermutet, dass KI-Unternehmen wie OpenAI hauptsächlich auf synthetische Daten zurückgreifen, weil sie das Angebot an hochwertigen, von Menschen erstellten Inhalten im öffentlichen Internet erschöpft haben. Southern postuliert auch ein kontroverseres Motiv: „Es distanziert sie weiter von urheberrechtlich geschütztem Material, mit dem sie trainiert haben und das sie in Schwierigkeiten bringen könnte.“
Aus diesem Grund hat Southern die Praxis öffentlich als „Datenwäsche“ bezeichnet. Er argumentiert, dass KI-Unternehmen ihre Modelle zunächst mit urheberrechtlich geschützten Werken trainieren, anschließend KI-Variationen dieses Inhalts generieren und dann das ursprüngliche urheberrechtlich geschützte Material aus ihren Trainingsdatensätzen entfernen könnten. Diese Strategie, so behauptet er, würde es ihnen ermöglichen, zu behaupten, ihr Trainingsdatensatz sei „ethisch“, da er ihrer Logik zufolge „technisch“ nicht an dem ursprünglichen urheberrechtlich geschützten Bild trainiert wurde. „Deshalb nennen wir es Datenwäsche“, erklärt Southern, „weil sie in gewisser Weise versuchen, die Daten zu säubern und ihnen ihr Urheberrecht zu entziehen.“
Als Antwort bekräftigte ein OpenAI-Sprecher das Engagement des Unternehmens für eine verantwortungsvolle Entwicklung: „Wir erstellen synthetische Daten, um die KI voranzutreiben, im Einklang mit den einschlägigen Urheberrechtsgesetzen.“ Der Sprecher fügte hinzu, dass die Generierung hochwertiger synthetischer Daten es ihnen ermögliche, intelligentere und leistungsfähigere Produkte wie ChatGPT zu entwickeln, die Millionen befähigen, effizienter zu arbeiten, neue Wege zum Lernen und Schaffen zu entdecken und globale Innovation und Wettbewerb zu fördern.
Felix Simon, KI-Forscher an der Universität Oxford, betrachtet das Thema differenzierter. Er weist darauf hin, dass synthetische Daten zwar einen Neuanfang zu bieten scheinen, sie aber „den ursprünglichen Schaden, über den sich Kreative und KI-Firmen streiten, nicht wirklich beheben“. Er betont, dass synthetische Daten nicht aus dem Nichts entstehen; sie werden vermutlich von Modellen erstellt, die selbst mit Daten von Kreativen und Urheberrechtsinhabern trainiert wurden, oft ohne deren Erlaubnis oder Entschädigung. Aus einer Perspektive der sozialen Gerechtigkeit, Rechte und Pflichten behauptet Simon, dass „diesen Rechteinhabern auch bei der Verwendung synthetischer Daten noch etwas geschuldet wird – sei es Entschädigung, Anerkennung oder beides.“
Ed Newton-Rex, Gründer von Fairly Trained – einer gemeinnützigen Organisation, die KI-Unternehmen zertifiziert, die die geistigen Eigentumsrechte von Kreativen respektieren – teilt die grundlegenden Bedenken von Southern. Er erkennt den legitimen Nutzen synthetischer Daten als Mittel zur „Erweiterung des Datensatzes“ und zur „Erhöhung der Abdeckung der Trainingsdaten“ an. In einer Zeit, in der die Branche „an die Grenzen der legitim zugänglichen Trainingsdaten stößt“, werden synthetische Daten als Möglichkeit wahrgenommen, „die nutzbare Lebensdauer dieser Daten zu verlängern“.
Newton-Rex warnt jedoch auch vor dunkleren Implikationen. „Gleichzeitig denke ich, dass ihre Wirkung leider, zumindest teilweise, eine Urheberrechtswäsche ist“, erklärt er und schließt: „Beides ist wahr.“ Er warnt davor, die Zusicherungen von KI-Firmen blind zu akzeptieren, und betont, dass synthetische Daten „kein Allheilmittel für die unglaublich wichtigen Urheberrechtsfragen“ sind. Die Vorstellung, dass synthetische Daten es KI-Entwicklern ermöglichen, Urheberrechtsbedenken zu umgehen, ist seiner Ansicht nach grundlegend falsch.
Newton-Rex argumentiert weiter, dass die Formulierung von synthetischen Daten und die Art und Weise, wie KI-Unternehmen über das Modelltraining sprechen, dazu dient, sie von den Personen zu distanzieren, deren Arbeit sie möglicherweise nutzen. „Der durchschnittliche Zuhörer, wenn er hört, dass dieses Modell mit synthetischen Daten trainiert wurde, wird wohl denken: ‚Ach so, in Ordnung. Nun, das ist wahrscheinlich nicht das neueste Album von Ed Sheeran, oder?‘“, mutmaßt er. Diese Erzählung, so behauptet er, „entfernt uns weiter von einem einfachen Verständnis, wie diese Modelle tatsächlich hergestellt werden, was letztendlich durch die Ausbeutung der Lebenswerke von Menschen geschieht.“ Er zieht eine Analogie zum Kunststoffrecycling, wo ein recycelter Behälter ursprünglich ein Spielzeug oder eine Autostoßstange gewesen sein könnte. Der Akt von KI-Modellen, verschiedene Eingaben zu mischen, um „neue Ausgaben“ zu generieren, tut nichts, so behauptet er, um ihre Abhängigkeit von der ursprünglichen menschlichen Arbeit zu verringern.
Für Newton-Rex bleibt die entscheidende Erkenntnis: „Das absolut entscheidende Element hier, und das muss einfach in Erinnerung bleiben, ist, dass selbst in einer Welt synthetischer Daten die Arbeit von Menschen ausgebeutet wird, um mit ihnen zu konkurrieren.“