合成数据:AI的新淘金热还是“数据洗钱”?
人工智能的快速发展正逼近一个关键瓶颈:高质量训练数据的供应日益减少。随着网站越来越多地实施数据抓取障碍,以及现有公共内容被AI模型大量消耗,人们越来越担心可用的信息源可能很快枯竭。然而,行业提出的解决方案——合成数据——却引发了激烈的争论。
这种由AI模型生成自身训练数据的概念,正在科技界获得广泛关注。OpenAI的技术人员塞巴斯蒂安·布贝克(Sebastien Bubeck)在最近GPT-5发布期间强调了其重要性,OpenAI首席执行官萨姆·奥特曼(Sam Altman)也对此表示赞同。其前景是明确的:合成数据可以为下一代AI能力提供动力,支持开发更智能、更强大的产品,如ChatGPT。支持者认为,这将提高生产力,促进学习,并推动全球创新。OpenAI坚称其合成数据生成符合相关版权法律。
然而,这种对机器生成数据日益增长的依赖并未被创意产业忽视,反而引发了相当大的担忧。电影概念艺术家和插画师里德·索瑟恩(Reid Southern)认为,AI公司之所以转向合成数据,正是因为他们已经耗尽了公共互联网上高质量、人类创作内容的供应。更尖锐地指出,索瑟恩认为这背后有更深层的动机:旨在与他们的模型最初可能训练过的任何受版权保护的材料保持距离,从而避免潜在的法律陷阱。
索瑟恩公开将这种做法称为“数据洗钱”。他认为,AI公司可以首先用受版权保护的作品训练他们的模型,然后根据这些学习生成新的、AI变体的内容,随后从他们的数据集中删除原始受版权保护的材料。按照这种逻辑,他们就可以声称自己的训练集是“道德的”,因为他们“技术上”没有在原始受版权保护的图像上进行训练。索瑟恩断言,这一过程试图“清洗数据并剥夺其版权”。
牛津大学AI研究员费利克斯·西蒙(Felix Simon)提出了一个更细致的观点,他承认虽然合成数据似乎提供了一种解决方案,但它并未从根本上“弥补”对创作者造成的“原始伤害”。他指出,合成数据并非凭空产生;它很可能是由那些本身就曾用创作者和版权持有者的现有数据(通常未经明确许可或补偿)训练过的模型生成的。从社会正义、权利和义务的角度来看,西蒙认为,即使采用了合成数据,这些权利持有者仍然应该得到补偿、认可或两者兼有。
公平训练(Fairly Trained)的创始人埃德·牛顿-雷克斯(Ed Newton-Rex)——一个认证尊重知识产权的AI公司的非营利组织——也认同索瑟恩的担忧。他承认,合成数据确实可以作为一种有用的工具,用于扩充数据集和增加训练数据的覆盖范围,尤其是在AI开发接近合法可访问信息极限时。然而,他也指出了一个“更黑暗的一面”,同意其影响至少在一定程度上是一种版权洗钱。
牛顿-雷克斯警告不要轻信AI公司的保证,强调合成数据并非解决行业面临的关键版权问题的“万灵药”。他警示,一些AI开发者中普遍存在但错误的观念,即合成数据可以帮助他们规避版权问题。此外,他认为,合成数据本身的框架——以及AI公司讨论模型训练的方式——旨在模糊其模型的来源,并使其与他们可能正在使用的个人创作者的作品保持距离。他将其比作塑料回收,一个回收容器的新形式模糊了其来源;同样,AI模型“将所有这些东西混杂在一起并生成‘新输出’”,而没有减少对原始作品的依赖。对于牛顿-雷克斯而言,关键的启示依然是,即使在一个依赖合成数据的世界里,“人们的作品正在被利用,以便与他们竞争”。