OpenAI拒绝纽时1.2亿ChatGPT日志:涉版权诉讼与隐私之争

Decoder

OpenAI正与《纽约时报》陷入一场重大的法律纠纷,其中一个争议焦点是对数百万条ChatGPT用户对话的访问权。最新分歧的核心是《纽约时报》作为其针对这家人工智能巨头正在进行的版权诉讼的一部分,要求检索前所未有的1.2亿条聊天记录。然而,OpenAI正在对此进行反击,提议提供一个显著较小的子集,即2000万条日志。

《纽约时报》寻求这些大量数据,以发现可能涉及其文章的版权侵权行为,并仔细记录此类事件在23个月内可能如何演变。另一方面,OpenAI警告称,同意《纽约时报》的全面要求将带来重大的技术和隐私风险。该公司解释说,这些聊天记录大多是非结构化的,每条通常超过5000字,并且经常包含高度敏感的个人信息,包括地址和密码。

在任何数据共享之前,这些日志都需要进行细致的手动审查和编辑,以删除敏感细节。OpenAI估计,即使是准备其已提议的2000万条日志也需要大约十二周,而处理全部1.2亿条则需要大约36周。该公司指出,这项劳动密集型过程将需要大量的人员和技术资源,因为数据必须从离线系统中提取。OpenAI还强调,根据《纽约时报》的要求,长时间保留已删除的聊天记录可能会产生新的数据泄露漏洞。

《纽约时报》坚决拒绝了OpenAI提出的限制,声称较小的样本不足以证明系统性版权侵权和长期趋势,并坚持要求全面访问以构建其案件。作为回应,OpenAI引用了计算机科学家泰勒·伯格-柯克帕特里克(Taylor Berg-Kirkpatrick)的观点,他支持2000万条日志样本的统计有效性。这家人工智能公司认为,将搜索范围扩大到此之外将是不成比例的,并会不必要地延长法律程序。

当前的这一分歧发生在2025年6月发布的一项重要法院命令的背景下。该命令强制OpenAI保留所有ChatGPT对话,包括用户已删除的对话。此指令是在《纽约时报》和其他出版商指控OpenAI通过自动化删除程序销毁证据之后发出的。

OpenAI强烈批评了这项命令,称其严重侵犯了数亿用户的隐私。该公司在法庭上辩称,许多聊天记录包含“深度个人”信息,从财务数据到婚礼策划等私人事项。此外,利用OpenAI API处理敏感公司数据的商业客户也受到了影响。OpenAI认为,该命令迫使其违反自身的隐私政策,并从根本上侵蚀了用户信任。

尽管法官有理由相信证据可能因删除而丢失,并作为预防措施下令全面保存数据,但OpenAI否认了故意销毁证据的指控。该公司坚称,没有证据表明侵权内容是故意删除的,无论是自动还是手动,并驳斥了用户为了隐瞒法律风险而大量删除聊天的说法是推测性的。

法院裁决的消息迅速在社交媒体平台上传播开来,引发了用户的广泛担忧。LinkedIn和X(原Twitter)上的专家发出了新的安全风险警告,并建议不要与ChatGPT共享敏感数据。一些公司甚至将该命令解读为OpenAI可能违反合同,担心机密数据现在将被存储更长时间,并可能暴露给第三方。