Reddit因AI抓取数据封锁互联网档案馆:网络记忆是否待价而沽?
Reddit已宣布对其平台对互联网档案馆(Internet Archive)的索引能力施加重大限制。此举源于其担忧人工智能公司正通过Wayback Machine(时光机)非法抓取Reddit数据。即日起,这个广受欢迎的社交媒体平台将主要阻止互联网档案馆抓取帖子详情页面、用户评论和个人资料。唯一仍可供存档的内容是Reddit.com首页,这意味着互联网档案馆将主要限于记录每天哪些新闻标题和帖子获得关注。
据Reddit发言人蒂姆·拉特施密特(Tim Rathschmidt)表示,这一决定源于观察到AI公司通过Wayback Machine提取数据,违反了包括Reddit自身在内的平台政策。Reddit承认互联网档案馆在保存开放网络方面的重要作用,但认为并非所有内容都应以便利此类滥用的方式进行存档。拉特施密特表示,在互联网档案馆能够充分保护其网站并确保遵守平台政策——特别是用户隐私和正确处理已删除内容方面——之前,Reddit将限制对其数据的访问以保护其用户。
这些新限制的实施始于2025年8月11日,Reddit确认已提前告知互联网档案馆这些变更。此次最新限制标志着Reddit在控制其庞大用户生成内容宝库访问权限方面迈出了新的一步,尤其是在AI公司加紧数据收集工作之际。该平台有记录显示曾限制自动化数据提取工具的访问,这通常表明其只愿在商业协议下提供此类数据。
事实上,Reddit一直在积极围绕其数据在新兴AI领域中的价值进行战略规划。去年年初,该公司与谷歌达成了一项引人注目的协议,授予这家科技巨头访问Reddit内容以用于Google搜索和AI模型训练的权限。几个月后,Reddit开始阻止主要搜索引擎抓取其数据,除非它们签订类似的付费协议。该公司还将其备受争议的2023年API更改(导致广泛抗议和几个热门第三方应用程序关闭)归因于滥用这些API进行AI模型训练。
将其数据用于AI目的的货币化仍然是Reddit的核心主题。除了与谷歌的合作外,该公司还与OpenAI达成了一项AI协议。然而,其反对未经授权数据使用的立场依然坚定,今年6月对Anthropic提起的诉讼就证明了这一点。Reddit声称,尽管Anthropic此前已承诺停止此类活动,但仍继续从其平台提取数据。
互联网档案馆的使命是维护网站和其他文化制品的数字记录,但其并未立即对Reddit的新限制发表评论。这一发展凸显了开放网络保存原则与平台在生成式AI时代寻求控制和货币化其数据的商业需求之间日益加剧的紧张关系。