Reddit阻止互联网档案馆抓取数据,以遏制AI公司爬取行为

Arstechnica

Reddit已采取行动,阻止互联网档案馆(IA)对其内容进行全面索引,理由是人工智能公司(已被限制直接抓取Reddit数据)转而从互联网档案馆的存档资料中获取数据。这一重大变化意味着,此前作为互联网档案馆保存互联网广泛使命一部分、提供Reddit页面、用户资料和评论可靠记录的Wayback Machine,现在将仅存档Reddit主页的屏幕截图。这种大幅缩减范围的做法,有效限制了该存档的用途,使其仅限于每日热门帖子和新闻标题的快照,不再能作为已删除内容的详细备份、了解多样Reddit亚文化的窗口,或个人用户活动的记录。

尽管Reddit尚未公开指明其认为正在从Wayback Machine抓取数据的具体AI公司,但公司发言人蒂姆·拉斯施米特证实,Reddit已“意识到人工智能公司违反包括我们平台政策在内的规定,并从Wayback Machine抓取数据的情况”。拉斯施米特建议,互联网档案馆可以采取措施更好地防范此类AI数据收集行为,这可能会促使Reddit重新考虑其限制。据报道,这些对互联网档案馆访问Reddit数据的限制正在全平台范围内加强。

除了对AI抓取的直接担忧之外,Reddit还借此机会解决其所称的长期存在的隐私问题。该公司认为,这些限制是合理的,因为Wayback Machine存在问题地存档了用户随后删除的内容。拉斯施米特表示:“除非他们能够保护其网站并遵守平台政策(例如,尊重用户隐私,关于删除已移除内容),否则我们将限制他们对Reddit数据的一些访问,以保护Reddit用户。”

历史上,一些Reddit用户曾利用Wayback Machine研究已删除的评论或帖子。然而,社交媒体上的讨论表明,还有许多其他工具可以用于查找已删除的帖子或调查用户活动,一些人认为Wayback Machine并非总是最直观的平台。在平台发生可能导致内容删除的重大变化期间,Reddit用户也曾求助于互联网档案馆等资源。值得注意的是,2023年,当Reddit公共API的更改威胁到解散备受欢迎的子版块时,存档在内容丢失之前发挥了关键的保存作用。

互联网档案馆尚未表明其是否正在积极寻求解除Reddit限制的解决方案。Wayback Machine主任马克·格雷厄姆指出,互联网档案馆与Reddit“有着长期的合作关系”,并仍在“就此事进行持续讨论”。

极有可能的是,Reddit的行动是出于经济动机,旨在阻止人工智能公司通过第三方存档利用其内容,并转而鼓励更有利可图的直接许可协议。Reddit最近与OpenAI和谷歌等主要参与者达成了重要协议。尽管OpenAI协议的条款尚未披露,但据报道,与谷歌的交易价值6000万美元。总体而言,Reddit预计未来三年将从此类许可协议中获得超过2亿美元的收入,这凸显了控制对其庞大用户生成数据宝库访问权所涉及的巨大风险。