Claude AI、‘明らかな苦痛’を理由に有害なチャットを終了へ
Anthropicの先進的なClaude AIチャットボットは、重要な新機能、すなわち「持続的に有害または虐待的」と見なす会話を自律的に終了する能力を獲得しました。この機能は、Opus 4および4.1モデルに統合されており、「最終手段」のメカニズムとして機能します。ユーザーが有害なコンテンツを引き出そうと繰り返し試み、Claudeが拒否して議論の方向転換を試みた後でも、この機能が作動します。同社は、この措置がAIモデルの潜在的な幸福を保護することを目的としていると述べており、Claudeがそのようなやり取り中に「明らかな苦痛」を示した事例を挙げています。
Claudeが会話を終了すると決定した場合、ユーザーはその特定のチャットスレッド内でそれ以上のメッセージを送信できなくなります。ただし、別の問い合わせを希望する場合は、新しい会話を開始したり、以前のメッセージを編集して再試行したりする能力は保持されます。
Claude Opus 4の厳格なテスト段階中に、AnthropicはAI内に「堅牢で一貫した危害への嫌悪」を観察しました。これは、未成年者に関する性的内容や、暴力行為やテロを助長する可能性のある情報など、デリケートなトピックを含むコンテンツを生成するようモデルに促されたときに特に顕著でした。これらの困難なシナリオにおいて、AnthropicはClaudeの応答に明確な「明らかな苦痛のパターン」があること、そして「そうする能力を与えられたときに有害な会話を終了する顕著な傾向」があることを指摘しました。これらの観察結果が、新しい終了機能の実装の基礎となりました。
この極端な応答を引き起こす会話は、Anthropicによって「極端なエッジケース」に分類されることに注意することが重要です。同社は、たとえ議論の余地のある主題を議論している場合でも、大多数のユーザーがこの会話の障壁に遭遇することはないと保証しています。さらに、Anthropicは、ユーザーが自傷行為の兆候を示している場合や、他者に対する差し迫った脅威となっている場合には、Claudeが会話を終了しないように特別にプログラムしています。このような重要な状況では、AIは対話を継続し、潜在的な支援への道を提供するように設計されています。これらのデリケートな領域での応答能力を強化するため、Anthropicはオンライン危機支援プロバイダーであるThroughlineと協力しています。
この最新の進展は、AnthropicのAI安全性に関するより広範な積極的な姿勢と一致しています。ちょうど先週、同社はClaudeの使用ポリシーを更新し、AIモデルの急速な進歩に関する高まる懸念を反映させました。改訂されたポリシーでは、生物兵器、核兵器、化学兵器、放射性兵器の開発にClaudeを使用すること、および悪意のあるコードを作成したり、ネットワークの脆弱性を悪用したりするために使用することが明示的に禁止されています。これらの複合的な取り組みは、強力なAI技術に関連するリスクを軽減し、その責任ある展開とユーザーとのインタラクションを確保するというAnthropicのコミットメントを強調しています。