合成データ:AIの新たなゴールドラッシュか、「データロンダリング」か?

Fastcompany

人工知能開発の急速な加速は現在、大きな障害に直面しています。それは、高品質な訓練データの不足が迫っていることです。ウェブサイトが自動スクレイピングに対する障壁をますます高くし、既存の公開コンテンツがAIモデルによってすでに貪欲に消費されているため、訓練に利用できる情報の源泉が間もなく枯渇するのではないかとの懸念が高まっています。業界が提案する解決策とは?それは合成データです。

この概念は急速に注目を集めており、OpenAIのセバスチャン・ブーベックが最近のGPT-5のライブストリーム発表中にその重要性を強調しました。ブーベックはAIの未来にとってその極めて重要な意味を力説し、OpenAIのCEOであるサム・アルトマンもその可能性への興奮を表明しました。

しかし、AIモデルが人工的に生成されたデータに大きく依存するという見通しは、懐疑論が渦巻くクリエイティブ産業に気づかれないわけではありません。映画のコンセプトアーティスト兼イラストレーターであるリード・サザーンは、OpenAIのようなAI企業が合成データに目を向けているのは、公開インターネット上で利用可能な高品質な人間が作成したデータの供給が枯渇したためだと示唆しています。サザーンはまた、より議論の余地のある動機を提起しています。それは、合成データが、AI開発者がモデルが最初に訓練された可能性のある著作権で保護された素材からさらに距離を置く手段を提供し、それによって潜在的な法的紛争を軽減するというものです。

このため、サザーンは公にこの慣行を「データロンダリング」と非難しています。彼は、AI企業が著作権で保護された作品でモデルを訓練し、その後AIのバリエーションを生成し、元の著作権で保護されたコンテンツをデータセットから削除する可能性があると主張しています。このプロセスにより、彼らは「彼らの論理によれば、元の画像で技術的に訓練されていないため、訓練セットは『倫理的』であると主張できる」と彼は主張します。サザーンは説明します、「だから私たちはそれをデータロンダリングと呼ぶのです。なぜなら、ある意味で、彼らはデータを浄化し、その著作権を剥奪しようとしているからです。」

これに対し、OpenAIの広報担当者は、同社が「関連する著作権法に沿って、AIを進歩させるため」に合成データを生成していると述べました。彼らは、高品質な合成データを生成することで、「ChatGPTのような、より知的で有能な製品を構築し、何百万もの人々がより効率的に働き、新しい学習や創造の方法を発見し、各国が世界的に革新し競争できるようにする」ことができると付け加えました。

しかし、オックスフォード大学のAI研究者であるフェリックス・サイモン氏によると、この問題はより複雑です。サイモン氏は、合成データの使用が「クリエイターとAI企業が争っている本来の損害を実際には修復しない」と指摘しています。彼は、合成データが何もないところから生み出されるわけではないことを強調しています。それは、クリエイターや著作権所有者からのデータで既に訓練されたモデルによって作成されていると推測され、多くの場合、彼らの明示的な許可や補償なしに行われています。社会正義、権利、義務の観点から、サイモン氏は、合成データが使用されたとしても、これらの権利所有者には補償、謝辞、またはその両方が依然として支払われるべきだと考えています。

知的財産権を尊重するAI企業を認定する非営利団体Fairly Trainedの創設者であるエド・ニュートン=レックスは、サザーン氏の根底にある懸念を共有しています。彼は、合成データが「データセットを補強し、訓練データのカバレッジを増やすための合法的に役立つ方法」であり、特に合法的なデータへのアクセスが制限されるにつれて重要であることを認めつつも、その問題のある側面も認識しています。「同時に、残念ながらその影響は、少なくとも部分的には、著作権ロンダリングの一つだと思います」とニュートン=レックスは認め、両方の真実が共存しうると示唆しています。

ニュートン=レックスは、AI企業の保証を額面通りに受け取ることに対して警告し、合成データが業界を悩ませる重要な著作権問題の万能薬ではないことを強調しています。彼は、合成データがAI開発者に著作権の懸念を回避する便利な抜け道を提供するという、広範にわたる、しかし誤った信念を指摘しています。さらに、彼は、合成データのフレーミングそのものと、AI企業がモデル訓練について議論する方法が、彼らが利用している可能性のある個人の作品から距離を置くのに役立っていると主張しています。彼はこれをプラスチックのリサイクルに例え、リサイクルされた素材で作られた新製品がその元の出所を消すわけではないと述べています。「これらのAIモデルがこれらの素材をすべて混ぜ合わせ、いわゆる『新しい出力』を生成するという事実は、元の作品への依存度を減らすものでは全くありません」と彼は断言します。

ニュートン=レックスにとって、重要な教訓は明白です。合成データへの依存がますます高まる世界においても、根本的な力学は、人々の創造的な作品が搾取され、しばしば彼らと直接競合する製品を生み出すために利用されるというものです。