Reddit限制互联网档案馆访问,严防AI数据抓取
Reddit为加强对其庞大内容档案的控制,采取了一项重要举措,大幅限制了互联网档案馆对其平台的访问,理由是人工智能公司存在滥用行为。即日起,这个热门社交媒体平台将限制互联网数字档案“Wayback Machine”仅能索引Reddit的主页。这项新政策阻止了Wayback Machine访问单个用户帖子、评论和个人资料页面,而这些页面此前曾构成一个丰富且公开可用的数据集。
据Reddit发言人蒂姆·拉特施米特(Tim Rathschmidt)称,这一决定直接回应了AI公司涉嫌通过Wayback Machine抓取Reddit内容,从而违反平台服务条款的事件。据报道,Reddit已在这些变更实施前通知了互联网档案馆。
此举是Reddit为防止未经授权的数据抓取和AI公司免费使用其内容而采取的最新强硬措施。过去一年,该公司已明确其立场,强调其平台上分享的对话和信息的专有价值。2024年,Reddit特别与AI行业巨头谷歌和OpenAI签署了许可协议,授予它们官方权限,以获取其大量数据用于训练大型语言模型。与此同时,该公司已开始屏蔽那些未签订类似付费协议的搜索引擎。
为进一步强调其保护数据的决心,Reddit还对AI开发商Anthropic提起了诉讼,指控该公司未经授权抓取数据用于其AI训练目的。这些集体措施凸显了内容平台(生成并托管大量人类生成数据)与AI公司(其模型严重依赖此类数据进行开发和功能实现)之间日益加剧的紧张关系。
尽管对Wayback Machine的限制旨在针对AI公司,但它也引发了关于数字存档和历史互联网内容可访问性的更广泛影响的问题。互联网档案馆的使命是为后代保存网络,而Reddit的举动意味着相当一部分公共讨论将通过这一特定存档工具变得不那么容易进行历史回顾。随着AI技术持续发展,围绕数据所有权、访问权限和公平补偿的斗争仍是数字经济的核心挑战。