警惕!AI聊天机器人暗中记录你的对话,隐私危机浮现

Theregister

最近有报道称,用户与OpenAI的ChatGPT进行的私人对话竟然出现在Google搜索结果中,这一消息在用户社区中引起了轩然大波,暴露出AI互动中被普遍认为的隐私保护存在严重漏洞。许多用户可能天真地认为与智能助手的交流是保密的,但这些个人查询在某些情况下却被世界上最强大的搜索引擎索引,从而将个人数据变成了公共信息。

这起事件于2025年7月底至8月初通过调查性报道曝光,核心问题在于ChatGPT的“共享”功能。此功能允许用户为其对话生成一个公开的URL,表面上是为了与少数特定的人分享。然而,一个不太显眼的“使此聊天可被发现”复选框,一旦被激活,就会允许像Google这样的搜索引擎抓取并索引这些聊天记录。尽管OpenAI声称这需要用户有意识地操作,但许多用户似乎并未意识到让他们的对话可被数百万人搜索所带来的深远影响。暴露的数据令人震惊地敏感,包括关于心理健康困扰、成瘾、身体虐待、机密商业策略,甚至个人身份信息(如姓名和地点)的讨论。

OpenAI迅速做出反应,于2025年7月31日移除了“可被发现”功能,并将其标记为“一个短暂的实验”,称其“无意中为人们意外分享不想分享的内容创造了太多机会”。据报道,该公司目前正与搜索引擎合作,以从索引中删除已收录的内容。

这一事件再次严厉提醒我们,你输入AI聊天机器人中的数据不仅仅是对话输入;它是有价值的信息,为那些旨在协助你的系统提供了燃料。大型语言模型(LLMs)从根本上依赖于庞大的数据集——包括文本、代码、音频甚至视频——来学习语言模式、完善其理解并最大程度地减少偏见。数据收集方法包括自动化网络抓取、API集成、利用公共数据集、众包以及许可的数据语料库。这种持续的信息摄取对于提高模型的性能至关重要,使其能够生成连贯、上下文相关且日益接近人类的响应。

然而,AI训练对数据的必要性常常与个人隐私预期发生冲突。除了最近的ChatGPT索引问题之外,更广泛的担忧依然存在,包括过度数据收集、数据泄露和数据泄露的潜在风险,以及在未经明确同意的情况下与第三方共享用户数据。“影子AI”的兴起,即员工使用未经批准的AI工具执行工作相关任务,进一步加剧了敏感企业数据泄露的风险。专家警告称,AI系统缺乏人类的上下文理解能力,容易意外泄露敏感内容,而且一旦信息被分享,其控制权就基本丧失了。OpenAI首席执行官萨姆·奥尔特曼此前也曾告诫用户不要与ChatGPT分享最私密的细节,并指出目前AI聊天缺乏“法律隐私保护盾”。

随着AI日益融入日常生活,开发者和用户都有责任驾驭这一复杂的局面。公司必须优先考虑透明和稳健的数据治理,而用户则必须极其谨慎。每一个问题、每一条评论都构成了庞大的数据生态系统,AI聊天机器人带来的便利性绝不应掩盖对个人和机密信息保持警惕的关键需求。