Synthetische Daten: KI-Goldrausch oder 'Datenwäsche'?

Fastcompany

Der rasante Fortschritt der künstlichen Intelligenz nähert sich einem kritischen Engpass: einem schwindenden Angebot an hochwertigen Trainingsdaten. Da Websites zunehmend Barrieren für das Daten-Scraping implementieren und bestehende öffentliche Inhalte von KI-Modellen gierig konsumiert werden, wachsen die Bedenken, dass die Quelle brauchbarer Informationen bald versiegen könnte. Die von der Industrie vorgeschlagene Lösung hat jedoch eine heftige Debatte ausgelöst: synthetische Daten.

Dieses Konzept, bei dem KI-Modelle ihre eigenen Trainingsdaten generieren, gewinnt in der Tech-Community erheblich an Bedeutung. Sebastien Bubeck, ein Mitglied des technischen Personals bei OpenAI, hob dessen Bedeutung während der kürzlichen GPT-5-Veröffentlichung hervor, ein Gefühl, das auch der OpenAI-CEO Sam Altman teilte. Das Versprechen ist klar: Synthetische Daten könnten die nächste Generation von KI-Fähigkeiten befeuern und intelligentere und leistungsfähigere Produkte wie ChatGPT ermöglichen, die laut Befürwortern die Produktivität steigern, das Lernen fördern und die globale Innovation vorantreiben werden. OpenAI behauptet, dass seine Generierung synthetischer Daten den relevanten Urheberrechtsgesetzen entspricht.

Doch diese aufkeimende Abhängigkeit von maschinell generierten Daten ist den Kreativindustrien nicht entgangen und hat erhebliche Besorgnis ausgelöst. Reid Southern, ein Filmkonzeptkünstler und Illustrator, deutet an, dass KI-Unternehmen gerade deshalb auf synthetische Daten zurückgreifen, weil sie das Angebot an hochwertigen, von Menschen erstellten Inhalten im öffentlichen Internet erschöpft haben. Deutlicher gesagt, glaubt Southern, dass es ein Hintergedanken gibt: sich von allen urheberrechtlich geschützten Materialien zu distanzieren, auf denen ihre Modelle ursprünglich trainiert worden sein könnten, um so potenzielle rechtliche Fallstricke zu vermeiden.

Southern hat diese Praxis öffentlich als „Datenwäsche“ bezeichnet. Er argumentiert, dass KI-Firmen ihre Modelle zunächst auf urheberrechtlich geschützten Werken trainieren könnten, dann neue, KI-variierte Inhalte basierend auf diesem Lernen generieren und anschließend das ursprüngliche urheberrechtlich geschützte Material aus ihren Datensätzen entfernen könnten. Nach dieser Logik könnten sie dann behaupten, ihre Trainingssätze seien „ethisch“, weil sie „technisch“ nicht auf dem ursprünglichen urheberrechtlich geschützten Bild trainiert wurden. Southern behauptet, dass dieser Prozess versucht, „die Daten zu säubern und sie ihres Urheberrechts zu entziehen“.

Felix Simon, ein KI-Forscher an der University of Oxford, bietet eine nuanciertere Perspektive und räumt ein, dass synthetische Daten zwar eine Lösung zu bieten scheinen, aber den den Urhebern zugefügten „ursprünglichen Schaden“ nicht grundlegend „beheben“. Er weist darauf hin, dass synthetische Daten nicht aus dem Nichts entstehen; sie werden vermutlich von Modellen erstellt, die selbst auf vorhandenen Daten von Urhebern und Rechteinhabern trainiert wurden – oft ohne deren ausdrückliche Genehmigung oder Vergütung. Aus der Perspektive der sozialen Gerechtigkeit, Rechte und Pflichten argumentiert Simon, dass diesen Rechteinhabern immer noch etwas zusteht, sei es Entschädigung, Anerkennung oder beides, selbst wenn synthetische Daten verwendet werden.

Ed Newton-Rex, Gründer von Fairly Trained – einer gemeinnützigen Organisation, die KI-Unternehmen zertifiziert, die geistige Eigentumsrechte respektieren – teilt Southerns Bedenken. Er räumt ein, dass synthetische Daten ein wirklich hilfreiches Werkzeug sein können, um Datensätze zu erweitern und die Abdeckung von Trainingsdaten zu erhöhen, insbesondere da die KI-Entwicklung an die Grenzen der rechtmäßig zugänglichen Informationen stößt. Er identifiziert jedoch auch eine „dunklere Seite“ und stimmt zu, dass deren Wirkung zumindest teilweise eine Form der Urheberrechtswäsche ist.

Newton-Rex warnt davor, die Zusicherungen von KI-Firmen für bare Münze zu nehmen, und betont, dass synthetische Daten „kein Allheilmittel“ für die kritischen Urheberrechtsfragen sind, mit denen die Branche konfrontiert ist. Er warnt vor dem weit verbreiteten, aber irrigen Glauben einiger KI-Entwickler, dass synthetische Daten ihnen helfen können, Urheberrechtsbedenken zu umgehen. Darüber hinaus argumentiert er, dass die bloße Formulierung von synthetischen Daten – und die Art und Weise, wie KI-Unternehmen über das Modelltraining sprechen – dazu dient, die Ursprünge ihrer Modelle zu verschleiern und sie von den einzelnen Urhebern zu distanzieren, deren Arbeit sie möglicherweise verwenden. Er vergleicht es mit dem Kunststoffrecycling, bei dem die Ursprünge eines recycelten Behälters in seiner neuen Form verschleiert werden; ähnlich „vermischen“ KI-Modelle „all dieses Zeug und generieren ‚neue Ausgabe‘“, ohne ihre Abhängigkeit von der Originalarbeit zu verringern. Für Newton-Rex bleibt die entscheidende Erkenntnis, dass selbst in einer Welt, die auf synthetische Daten angewiesen ist, „die Arbeit von Menschen ausgenutzt wird, um mit ihnen zu konkurrieren“.