Roblox部署开源AI“哨兵”，保障聊天室儿童安全

Roblox，这个深受数百万儿童和青少年喜爱的热门在线游戏平台，近日公布了一项开源人工智能系统，旨在主动识别其游戏聊天中的掠夺性语言。此举是在日益增多的法律挑战和公众批评声中采取的重要一步，此前有多起诉讼指控该公司在保护年轻用户免受网络掠夺者侵害方面做得不足。近期在爱荷华州提起的一起诉讼称，一名13岁女孩在Roblox上被一名成年掠夺者诱骗，随后被绑架、跨州贩卖并遭受强奸。该诉讼特别指出，Roblox的平台设计使儿童特别脆弱。

Roblox坚称，它致力于默认情况下使其系统尽可能安全，但同时承认“没有系统是完美的”，并且检测潜在儿童危险等严重危害仍然是行业面临的最严峻挑战之一。这个名为“哨兵”（Sentinel）的新AI系统，专门设计用于检测潜在儿童危险的早期迹象，包括性剥削语言。该公司报告称，仅在2025年上半年，“哨兵”的洞察力就促成了1200份潜在儿童剥削尝试报告提交给美国国家失踪和受剥削儿童中心。通过将这项技术开源，Roblox旨在将其保护能力扩展到面临类似在线安全问题的其他平台。

通过AI检测对儿童的潜在危险异常复杂，这与人类审核员面临的困难相似。初步的对话交流，例如看似无害的问题“你多大了？”或“你来自哪里？”，可能不会立即触发危险信号。然而，当在更广泛的长期对话背景中分析时，这些短语可能会揭示出险恶的潜在意图。Roblox拥有超过1.11亿月活跃用户，已经禁止在聊天中分享视频或图像，并尝试屏蔽电话号码等个人信息，尽管用户经常能找到规避这些安全措施的方法。此外，除非获得明确的父母许可，13岁以下的儿童被限制在游戏外与其他用户聊天。与许多其他平台不同，Roblox不加密私人聊天对话，这使其能够监控和审核互动。

Roblox首席安全官马特·考夫曼（Matt Kaufman）解释了以前过滤方法的局限性。他指出，虽然旧的过滤器在基于单行或短文本片段来阻止脏话和各种形式的辱骂性语言方面很有效，但与儿童危险或诱骗相关的行为通常会在更长时间内展开。“哨兵”通过捕获Roblox上每分钟的聊天快照（每天处理约60亿条消息）并分析其潜在危害来解决这个问题。为此，Roblox开发了两种不同的参考模型：一种包含良性消息，另一种包含明确认定违反儿童危险政策的聊天。

这种创新方法使“哨兵”能够识别超出简单标记特定词语或短语的有害模式，而是考虑整个对话上下文。Roblox信任与安全工程副总裁纳伦·科内鲁（Naren Koneru）对此进行了详细阐述，他表示，“负面”参考模型会随着检测到更多恶意行为者而持续改进，而“正面”模型则代表典型、正常的用户行为。当用户聊天时，系统会持续评估他们的互动，评分他们的行为更符合良性模型还是有害参考模型。科内鲁强调，这种评估并非基于单一消息，而是基于数天内互动的累积模式。如果用户的分数显示出倾向于“负面”集群，人类审核员将被提示进行更深入的调查，检查该用户的所有相关对话、连接和玩过的游戏。最终，通过此过程识别出的任何危险互动都将由人类安全专家审查，并在适当情况下报告给执法机构。

Roblox部署开源AI“哨兵”，保障聊天室儿童安全

相关文章

LangExtract：AI将临床笔记转化为结构化数据

Hugging Face 推出 AI Sheets：免费、开源的无代码 LLM 工具包

罗布乐思开源AI系统：Sentinel打击有害对话，守护儿童安全