AI合成データの隆盛:イノベーションと著作権の懸念

Fastcompany

人工知能開発の急速なペースは、差し迫った課題に直面しています。それは、高品質な訓練データの潜在的な不足です。ウェブサイトがデータ収集に対する障壁をますます高くし、既存のオンラインコンテンツがAIモデルの訓練のために貪欲にスクレイピングされる中、利用可能な情報の源がすぐに枯渇するのではないかという懸念が高まっています。業界が提案する解決策は、ますます明確になっています。それは合成データです。

「最近、業界では合成データについて多くの議論が交わされています」と、OpenAIの技術スタッフであるセバスチャン・ブベック氏は、同社の最近のGPT-5発表イベントで述べました。ブベック氏は、AIモデルの将来にとってその極めて重要な役割を強調し、OpenAIのCEOであるサム・アルトマン氏も「さらに多くのものが登場する」ことへの興奮を伝えました。

しかし、AI生成データへの過度な依存の見込みは、クリエイティブ業界に見過ごされていません。映画のコンセプトアーティストでありイラストレーターであるリード・サザン氏は、OpenAIのようなAI企業が合成データに目を向けているのは、主に公開インターネット上で利用可能な高品質な人間作成コンテンツの供給を使い果たしたためだと示唆しています。サザン氏はさらに、より物議を醸す動機を提唱しています。「それは、彼らが訓練に使用した、問題を引き起こす可能性のある著作権で保護された素材から、彼らをさらに遠ざけるものです。」

この理由から、サザン氏はその慣行を公に「データロンダリング」と呼んでいます。彼は、AI企業が最初に著作権で保護された作品でモデルを訓練し、その後、そのコンテンツのAIバリエーションを生成し、そして元の著作権で保護された素材を訓練データセットから削除できると主張しています。この戦略は、彼の主張によれば、彼らが訓練セットが「倫理的」であると主張することを可能にするでしょう。なぜなら、彼らの論理によれば、それは元の著作権で保護された画像を「技術的に」訓練に使用していないからです。「だから私たちはそれをデータロンダリングと呼ぶのです」とサザン氏は説明します。「ある意味で、彼らはデータを洗浄し、その著作権を剥奪しようとしているからです。」

これに対し、OpenAIの広報担当者は、同社が責任ある開発にコミットしていることを確認しました。「私たちは、関連する著作権法に則り、AIを進歩させるために合成データを作成しています。」広報担当者は、高品質な合成データを生成することで、ChatGPTのようなより知的で有能な製品を構築でき、それが何百万人もの人々がより効率的に働き、学び、創造する新しい方法を発見し、グローバルなイノベーションと競争を促進することを可能にすると付け加えました。

オックスフォード大学のAI研究者であるフェリックス・サイモン氏は、この問題をよりニュアンスのある視点から見ています。彼は、合成データがクリーンな状態を提供するように見えるかもしれないが、「クリエイターとAI企業が争う元の損害を本当に修復するものではない」と指摘します。彼は、合成データが何もないところから生み出されるわけではないことを強調します。それはおそらく、クリエイターや著作権者からのデータ(しばしば許可や報酬なしに)で訓練されたモデルによって作成されるものです。社会正義、権利、義務の観点から、サイモン氏は「これらの権利保有者は、合成データの使用であっても、何らかの対価(補償、謝辞、またはその両方)を受け取るべきである」と断言します。

クリエイターの知的財産権を尊重するAI企業を認証する非営利団体Fairly Trainedの創設者であるエド・ニュートン=レックス氏は、サザン氏の根本的な懸念を共有しています。彼は、合成データが「データセットを増強する」および「訓練データのカバレッジを増やす」手段としての正当な有用性を認めています。業界が「合法的にアクセス可能な訓練データの限界にぶつかっている」時期において、合成データは「そのデータの利用可能な寿命を延ばす」方法として認識されています。

しかし、ニュートン=レックス氏もそのより暗い意味合いについて警告しています。「同時に、残念ながらその効果は、少なくとも部分的には著作権ロンダリングの一つだと思います」と述べ、「両方が真実である」と結論付けています。彼はAI企業の保証を盲目的に受け入れることに警告し、合成データは「非常に重要な著作権問題からの万能薬ではない」と強調しています。合成データがAI開発者に著作権の懸念を回避させるという考えは、彼の見解では根本的に間違っています。

ニュートン=レックス氏はさらに、合成データのフレーミングそのもの、そしてAI企業がモデルの訓練についてどのように議論するかが、彼らが利用している可能性のある個人との距離を置くのに役立っていると主張します。「平均的な聞き手は、このモデルが合成データで訓練されたと聞けば、『ああ、なるほど。じゃあ、これはエド・シーランの最新アルバムじゃないだろうね?』と考えるに違いない」と彼は仮定します。この物語は、「これらのモデルが実際にどのように作られているのか、つまり最終的には人々の人生の仕事を搾取することによって作られているのか、という簡単な理解から私たちをさらに遠ざける」と彼は主張します。彼はプラスチックのリサイクルに例え、リサイクルされた容器が元々おもちゃや車のバンパーだったかもしれないと述べます。AIモデルが多様な入力を混ぜ合わせて「新しい出力」を生成する行為は、元の人間作品への依存度を低下させるものではない、と彼は主張します。

ニュートン=レックス氏にとって、重要な教訓は次のとおりです。「ここで絶対に重要な要素であり、覚えておくべきことですが、合成データの存在する世界であっても、人々の作品が彼らと競争するために搾取されているという事実です。」