Roblox、オープンソースAI「Sentinel」でチャット児童安全を強化
数百万人の子どもたちやティーンエイジャーに利用されている非常に人気のあるオンラインゲームプラットフォームRobloxは、ゲームチャット内で捕食的な言葉を積極的に識別するために設計されたオープンソースの人工知能システムを発表しました。この重要な動きは、同社が若いユーザーをオンラインの捕食者から十分に保護していないと主張する訴訟や公衆の批判が高まる中で行われました。最近アイオワ州で提起された訴訟では、13歳の少女がRobloxで成人の捕食者に紹介され、その後誘拐され、複数の州を越えて人身売買され、レイプされたと主張されています。訴訟は、Robloxのプラットフォーム設計が子どもたちを特に脆弱にしていると具体的に主張しています。
Robloxは、システムをデフォルトで可能な限り安全にするよう努めていると主張していますが、同時に「完璧なシステムは存在しない」こと、そして潜在的な児童危険などの重大な危害を検出することが業界で最も手ごわい課題の一つであることを認めています。Sentinelと名付けられた新しいAIシステムは、性的な搾取的な言葉を含む、児童危険の可能性のある初期の兆候を検出するために特別に設計されています。同社は、Sentinelの洞察により、2025年上半期だけで1,200件の潜在的な児童搾取の試みに関する報告が国家行方不明・被搾取児童センターに提出されたと報告しています。このテクノロジーをオープンソース化することで、Robloxは同様のオンライン安全上の懸念に直面している他のプラットフォームにもその保護能力を拡大することを目指しています。
AIを通じて子どもたちに対する潜在的な危険を検出することは、人間のモデレーターが直面する困難と同様に、非常に複雑です。「何歳ですか?」や「どこから来ましたか?」といった一見無害な質問のような最初の会話のやり取りは、すぐに危険信号を発しないかもしれません。しかし、広範な会話の文脈で分析されると、これらのフレーズは不吉な潜在的な意図を明らかにすることがあります。月間1億1,100万人以上のユーザーを誇るRobloxは、すでにチャットでの動画や画像の共有を禁止しており、電話番号などの個人情報をブロックしようとしていますが、ユーザーはしばしばそのような保護策を回避する方法を見つけます。さらに、13歳未満の子どもは、明示的な親の許可がない限り、ゲーム外で他のユーザーとチャットすることが制限されています。他の多くのプラットフォームとは異なり、Robloxはプライベートチャットの会話を暗号化しないため、インタラクションを監視およびモデレートすることができます。
Robloxの最高安全責任者であるマット・カウフマン氏は、以前のフィルタリング方法の限界を説明しました。彼は、古いフィルターが単一の行や短いテキストスニペットに基づいて冒涜的な言葉や様々な形式の虐待的な言葉をブロックするのに効果的だった一方で、児童危険やグルーミングに関連する行動は通常、はるかに長い期間にわたって展開されると指摘しました。Sentinelは、Roblox全体のチャットから1分間のスナップショットをキャプチャし(毎日約60億のメッセージを処理)、潜在的な危害を分析することでこれに対処します。これを達成するために、Robloxは2つの異なる参照モデルを開発しました。1つは良性のメッセージで構成され、もう1つは児童危険ポリシーに明確に違反していると特定されたチャットを含むものです。
この革新的なアプローチにより、Sentinelは特定の単語やフレーズを単にフラグ付けするだけでなく、会話全体の文脈を考慮して有害なパターンを認識することができます。Robloxの信頼と安全担当エンジニアリング担当副社長であるナレン・コネル氏はこれについて詳しく述べ、悪意のあるアクターがより多く検出されるにつれて「ネガティブ」参照モデルは継続的に改善され、「ポジティブ」モデルは典型的で正常なユーザー行動を表すと述べています。ユーザーがチャットするにつれて、システムは継続的にそのインタラクションを評価し、その行動が良性モデルと有害な参照モデルのどちらにより密接に一致するかを採点します。コネル氏は、この評価は単一のメッセージに基づくものではなく、数日間にわたるインタラクションの累積パターンに基づくものであることを強調しました。ユーザーのスコアが「ネガティブ」クラスターへの傾きを示す場合、人間のレビュー担当者は、そのユーザーの関連するすべての会話、接続、およびプレイされたゲームを調査するなど、より詳細な調査を行うよう促されます。最終的に、このプロセスを通じて特定された危険なインタラクションは、人間の安全専門家によってレビューされ、適切であれば法執行機関に報告されます。