Reddit向Wayback Machine设限:AI公司“窃取”数据,平台数据主权战升级

Gizmodo

Reddit已对互联网档案馆的Wayback Machine启动了一项重大封锁,阻止其索引该社交媒体平台绝大部分内容。这一果断行动发生在Reddit发现人工智能公司据称通过抓取这家非营利组织存储的数字档案中的宝贵用户数据来规避其许可政策之后。

此举凸显了Reddit不断演进的策略,即加强对其专有数据的控制,尤其是在此类信息对于训练AI模型极具吸引力的时代。尽管Reddit表示对AI公司利用其庞大的用户生成内容持开放态度,但它坚持此类访问必须得到补偿。该公司此前曾表示不会限制像互联网档案馆这样的“善意参与者”,但其立场现已转变。Reddit现在认为,某些实体(或许是无意中)正在协助AI公司绕过直接许可协议及相关费用。这一突然变化突显了数据许可作为快速扩张的AI行业中关键收入来源的日益重要性。

互联网档案馆是一家著名的非营利组织,致力于构建一个全面的在线内容数字图书馆,其中包括数十亿网页以及数百万书籍、视频和软件程序。其旗舰工具Wayback Machine允许用户捕获和重访网页的历史快照,将其精确地保存为特定日期的样子。这项功能长期以来一直是研究人员、历史学家和公众获取存档互联网内容的重要资源。

Reddit声称其拥有证据表明某些AI公司正在利用Wayback Machine规避其既定政策,从而在未经适当授权的情况下抓取用户生成内容。Reddit发言人发表声明解释道:“互联网档案馆为开放网络提供服务,但我们已注意到AI公司违反平台政策(包括我们的政策),并从Wayback Machine抓取数据的情况。”该发言人补充说,在互联网档案馆能够“保护其网站并遵守平台政策(例如,尊重用户隐私,删除已删除内容)”之前,Reddit正在限制对其数据的访问,以保护其用户。

新限制意味着Wayback Machine将不再能够抓取帖子详情页、单个评论或用户资料。其索引能力现在将仅限于Reddit的主页。这些限制于2025年8月11日开始实施,Reddit证实其已提前告知互联网档案馆即将到来的变化。互联网档案馆未立即回应关于Reddit行动的置评请求。

这一行动是Reddit近年来为加强对其庞大数据储备访问控制所采取的一系列措施中的最新一步。尽管该公司仍对许可其数据持开放态度,但它已加大了打击试图未经补偿访问数据的实体的力度。这一策略已促成与包括谷歌和OpenAI在内的大型科技公司达成数百万美元的协议。例如,与谷歌的合作涵盖了搜索索引和AI训练数据的提供,此后Reddit又阻止了其他搜索引擎在其搜索结果中显示其最新帖子。此外,今年6月,Reddit对AI初创公司Anthropic提起诉讼,指控其未经授权的数据抓取,进一步强调了其执行数据访问政策的决心。