AI合成数据繁荣:创新与版权争议并存
人工智能发展的迅猛步伐正面临一个迫在眉睫的挑战:高质量训练数据可能出现短缺。随着网站日益设置数据收集障碍,以及现有在线内容被贪婪地抓取以供AI模型训练,人们越来越担心可用的信息源可能很快枯竭。业界提出的解决方案日益清晰:合成数据。
“最近在行业内,合成数据被广泛讨论。”OpenAI的技术人员Sebastien Bubeck在公司近期GPT-5发布会上表示。Bubeck强调了其对未来AI模型的关键作用,OpenAI首席执行官Sam Altman也对此表示兴奋,称“未来还有更多”。
然而,过度依赖AI生成数据的前景并未被创意产业忽视。电影概念艺术家兼插画师Reid Southern认为,OpenAI等AI公司转向合成数据,主要是因为他们已经耗尽了公共互联网上高质量、人类创作内容的供应。Southern还提出一个更具争议的动机:“这使他们进一步远离了任何可能让他们陷入麻烦的、受版权保护的训练材料。”
因此,Southern公开将这种做法称为“数据洗钱”。他认为,AI公司可以首先用受版权保护的作品训练模型,然后生成该内容的AI变体,再将原始受版权保护的材料从其训练数据集中移除。他声称,这种策略将允许他们声称其训练集是“道德的”,因为根据他们的逻辑,它“技术上”并未在原始受版权的图像上进行训练。“这就是我们称之为数据洗钱的原因,”Southern解释道,“因为从某种意义上说,他们试图清洗数据并剥离其版权。”
对此,OpenAI发言人重申了公司对负责任开发的承诺:“我们根据相关版权法创建合成数据以推动AI发展。”发言人补充说,生成高质量的合成数据使他们能够构建更智能、更强大的产品,如ChatGPT,这些产品赋能数百万人更高效地工作,发现新的学习和创造方式,并促进全球创新和竞争。
牛津大学AI研究员Felix Simon以更细致的视角看待这个问题。他指出,虽然合成数据可能看似提供了一个干净的开始,但它“并未真正弥补创作者和AI公司争执的原始损害”。他强调,合成数据并非凭空产生;它很可能是由本身就用创作者和版权所有者的数据(通常未经许可或补偿)训练过的模型创建的。从社会正义、权利和义务的角度来看,Simon断言:“即使使用合成数据,这些权利人仍然应得某种补偿——无论是报酬、致谢,还是两者兼有。”
Fairly Trained(一个认证尊重创作者知识产权的AI公司的非营利组织)的创始人Ed Newton-Rex与Southern持有相同的基本担忧。他承认合成数据作为“扩充数据集”和“增加训练数据覆盖范围”的合法效用。在行业“正触及合法可访问训练数据极限”之时,合成数据被视为“延长数据可用寿命”的一种方式。
然而,Newton-Rex也警告了其更深层的含义。“同时,我认为不幸的是,它的影响至少部分是版权洗钱,”他表示,并总结道“两者都属实”。他警告不要盲目接受AI公司的保证,强调合成数据“并非解决极其重要的版权问题的灵丹妙药”。他认为,合成数据允许AI开发者规避版权担忧的说法,从根本上是错误的。
Newton-Rex进一步指出,合成数据的措辞方式以及AI公司讨论模型训练的方式,旨在使其与可能正在利用其作品的个人保持距离。“普通听众如果听到这个模型是用合成数据训练的,他们肯定会想,‘哦,好吧,这可能不是Ed Sheeran的最新专辑,对吧?’”他推测。他认为,这种叙事“进一步使我们难以轻易理解这些模型是如何实际制作的,而这最终是通过剥削人们毕生的工作来实现的”。他将此比作塑料回收,一个回收的容器可能最初是玩具或汽车保险杠。他坚持认为,AI模型混合各种输入以生成“新输出”的行为,丝毫没有减少它们对原始人类作品的依赖。
对Newton-Rex而言,关键的启示依然是:“这里绝对关键的要素,也是必须记住的,是即使在合成数据的世界里,正在发生的事情仍然是人们的作品被利用来与他们竞争。”