Reddit阻止互联网档案馆抓取数据，以遏制AI公司爬取行为

Reddit已采取行动，阻止互联网档案馆（IA）对其内容进行全面索引，理由是人工智能公司（已被限制直接抓取Reddit数据）转而从互联网档案馆的存档资料中获取数据。这一重大变化意味着，此前作为互联网档案馆保存互联网广泛使命一部分、提供Reddit页面、用户资料和评论可靠记录的Wayback Machine，现在将仅存档Reddit主页的屏幕截图。这种大幅缩减范围的做法，有效限制了该存档的用途，使其仅限于每日热门帖子和新闻标题的快照，不再能作为已删除内容的详细备份、了解多样Reddit亚文化的窗口，或个人用户活动的记录。

尽管Reddit尚未公开指明其认为正在从Wayback Machine抓取数据的具体AI公司，但公司发言人蒂姆·拉斯施米特证实，Reddit已“意识到人工智能公司违反包括我们平台政策在内的规定，并从Wayback Machine抓取数据的情况”。拉斯施米特建议，互联网档案馆可以采取措施更好地防范此类AI数据收集行为，这可能会促使Reddit重新考虑其限制。据报道，这些对互联网档案馆访问Reddit数据的限制正在全平台范围内加强。

除了对AI抓取的直接担忧之外，Reddit还借此机会解决其所称的长期存在的隐私问题。该公司认为，这些限制是合理的，因为Wayback Machine存在问题地存档了用户随后删除的内容。拉斯施米特表示：“除非他们能够保护其网站并遵守平台政策（例如，尊重用户隐私，关于删除已移除内容），否则我们将限制他们对Reddit数据的一些访问，以保护Reddit用户。”

历史上，一些Reddit用户曾利用Wayback Machine研究已删除的评论或帖子。然而，社交媒体上的讨论表明，还有许多其他工具可以用于查找已删除的帖子或调查用户活动，一些人认为Wayback Machine并非总是最直观的平台。在平台发生可能导致内容删除的重大变化期间，Reddit用户也曾求助于互联网档案馆等资源。值得注意的是，2023年，当Reddit公共API的更改威胁到解散备受欢迎的子版块时，存档在内容丢失之前发挥了关键的保存作用。

互联网档案馆尚未表明其是否正在积极寻求解除Reddit限制的解决方案。Wayback Machine主任马克·格雷厄姆指出，互联网档案馆与Reddit“有着长期的合作关系”，并仍在“就此事进行持续讨论”。

极有可能的是，Reddit的行动是出于经济动机，旨在阻止人工智能公司通过第三方存档利用其内容，并转而鼓励更有利可图的直接许可协议。Reddit最近与OpenAI和谷歌等主要参与者达成了重要协议。尽管OpenAI协议的条款尚未披露，但据报道，与谷歌的交易价值6000万美元。总体而言，Reddit预计未来三年将从此类许可协议中获得超过2亿美元的收入，这凸显了控制对其庞大用户生成数据宝库访问权所涉及的巨大风险。

Reddit阻止互联网档案馆抓取数据，以遏制AI公司爬取行为

相关文章

加拿大携手Cohere，将AI引入公共服务

AI取代人力IT中间件：博通引领自动化转型

Meta首席技术官：AI将推动软件工程能力分层，掌握AI者将脱颖而出