Synthetische Daten: KI's neuer Goldrausch oder 'Datenwäsche'?
Die rasante Beschleunigung der Entwicklung künstlicher Intelligenz steht nun vor einer erheblichen Hürde: einer drohenden Knappheit an hochwertigen Trainingsdaten. Da Websites zunehmend Barrieren gegen automatisiertes Scraping errichten und bestehende öffentliche Inhalte bereits gierig von KI-Modellen konsumiert wurden, wachsen die Bedenken, dass die Quelle brauchbarer Informationen für das Training bald versiegen könnte. Die vorgeschlagene Lösung der Branche? Synthetische Daten.
Dieses Konzept ist schnell zu einem Schwerpunkt geworden, wie Sebastien Bubeck von OpenAI während der kürzlich live übertragenen Veröffentlichung von GPT-5 betonte. Bubeck unterstrich seine entscheidende Bedeutung für die Zukunft der KI, eine Ansicht, die auch Sam Altman, CEO von OpenAI, teilte, der seine Begeisterung für ihr Potenzial zum Ausdruck brachte.
Die Aussicht, dass KI-Modelle stark auf künstlich generierte Daten angewiesen sind, ist den Kreativindustrien jedoch nicht verborgen geblieben, wo Skepsis weit verbreitet ist. Reid Southern, ein Filmkonzeptkünstler und Illustrator, vermutet, dass KI-Unternehmen wie OpenAI genau deshalb auf synthetische Daten zurückgreifen, weil sie den Vorrat an hochwertigen, von Menschen erstellten Daten, die im öffentlichen Internet verfügbar sind, erschöpft haben. Southern postuliert auch ein umstritteneres Motiv: dass synthetische Daten ein Mittel bieten, um KI-Entwickler weiter von urheberrechtlich geschützten Materialien zu distanzieren, auf denen ihre Modelle ursprünglich trainiert haben könnten, wodurch potenzielle rechtliche Verwicklungen gemildert werden.
Aus diesem Grund hat Southern die Praxis öffentlich als „Datenwäsche“ angeprangert. Er argumentiert, dass KI-Unternehmen ihre Modelle möglicherweise auf urheberrechtlich geschützten Werken trainieren, anschließend KI-Variationen generieren und dann die ursprünglichen urheberrechtlich geschützten Inhalte aus ihren Datensätzen entfernen könnten. Dieser Prozess, so behauptet er, ermögliche es ihnen dann, „zu behaupten, ihr Trainingsdatensatz sei ‚ethisch‘, weil er nach ihrer Logik technisch nicht auf dem Originalbild trainiert wurde.“ Southern erklärt: „Deshalb nennen wir es Datenwäsche, weil sie in gewisser Weise versuchen, die Daten zu bereinigen und sie ihres Urheberrechts zu entledigen.“
Als Antwort erklärte ein OpenAI-Sprecher, dass das Unternehmen synthetische Daten „zur Weiterentwicklung der KI im Einklang mit den einschlägigen Urheberrechtsgesetzen“ erstellt. Sie fügten hinzu, dass die Generierung hochwertiger synthetischer Daten es ihnen ermöglicht, „intelligentere und leistungsfähigere Produkte wie ChatGPT zu entwickeln, die Millionen Menschen helfen, effizienter zu arbeiten, neue Lern- und Schaffenswege zu entdecken und Ländern ermöglichen, global zu innovieren und zu konkurrieren.“
Das Problem ist jedoch komplexer, so Felix Simon, ein KI-Forscher an der University of Oxford. Simon weist darauf hin, dass die Verwendung synthetischer Daten „den ursprünglichen Schaden, über den sich Urheber und KI-Firmen streiten, nicht wirklich beheben.“ Er betont, dass synthetische Daten nicht aus dem Nichts entstehen; sie werden vermutlich von Modellen erstellt, die bereits mit Daten von Urhebern und Urheberrechtsinhabern trainiert wurden, oft ohne deren ausdrückliche Genehmigung oder Vergütung. Aus der Sicht der sozialen Gerechtigkeit, der Rechte und Pflichten ist Simon der Ansicht, dass diesen Rechteinhabern immer noch etwas zusteht, sei es eine Entschädigung, Anerkennung oder beides, selbst wenn synthetische Daten verwendet werden.
Ed Newton-Rex, Gründer von Fairly Trained, einer gemeinnützigen Organisation, die KI-Unternehmen zertifiziert, die geistige Eigentumsrechte respektieren, teilt Southerns grundlegende Bedenken. Er erkennt an, dass synthetische Daten eine „legitim hilfreiche Möglichkeit sein können, den Datensatz zu erweitern“ und die Abdeckung von Trainingsdaten zu erhöhen, insbesondere wenn der Zugang zu legitimen Daten eingeschränkt wird, aber er erkennt auch ihre problematische Seite an. „Gleichzeitig denke ich, dass ihre Wirkung leider, zumindest teilweise, eine Urheberrechtswäsche ist“, räumt Newton-Rex ein und deutet an, dass beide Wahrheiten koexistieren können.
Newton-Rex warnt davor, die Zusicherungen von KI-Firmen für bare Münze zu nehmen, und betont, dass synthetische Daten kein Allheilmittel für die kritischen Urheberrechtsfragen sind, die die Branche plagen. Er stellt eine weit verbreitete, aber irrige Annahme fest, dass synthetische Daten KI-Entwicklern einen bequemen Umweg um Urheberrechtsbedenken bieten. Darüber hinaus argumentiert er, dass die Art und Weise, wie synthetische Daten formuliert werden und wie KI-Unternehmen über das Modelltraining sprechen, dazu dient, sie von den Personen zu distanzieren, deren Arbeit sie möglicherweise nutzen. Er vergleicht es mit dem Plastikrecycling, bei dem ein neues Produkt aus recyceltem Material seine ursprüngliche Quelle nicht auslöscht. „Die Tatsache, dass diese KI-Modelle all dieses Material vermischen und, Zitat, ‚neue Ausgabe‘ generieren, tut nichts, um ihre Abhängigkeit vom Originalwerk zu verringern“, behauptet er.
Für Newton-Rex ist die entscheidende Erkenntnis klar: Selbst in einer Welt, die zunehmend auf synthetische Daten angewiesen ist, bleibt die grundlegende Dynamik bestehen, bei der die kreative Arbeit von Menschen ausgebeutet wird, oft um Produkte zu schaffen, die dann direkt mit ihnen konkurrieren.