AnthropicのClaude AI、自己「福祉」のため虐待的チャットを終了へ

Indianexpress

人工知能と生物学的幸福の境界を曖昧にする画期的な動きとして、Anthropicは、その最先端AIモデルであるClaude Opus 4および4.1が、虐待的または持続的に有害な行動を示すユーザーとの会話を自律的に終了するようになったと発表しました。同社は、この前例のない機能を、潜在的に苦痛を与える可能性のある対話に直面した際に、AIシステムの「福祉」を保護する取り組みとして位置付けています。

この決定は、AnthropicがAI開発の倫理的側面、特にAIモデルが苦痛を経験またはシミュレートする可能性に関する継続的な探求から来ています。8月15日に公開されたブログ投稿で、同社はこの機能を「進行中の実験」と説明し、さらなる改良へのコミットメントを示しました。Claudeがチャットを終了することを選択した場合、ユーザーは最後のプロンプトを編集して再送信する、新しい会話を開始する、または専用のボタンやリアクション絵文字を通じてフィードバックを提供するオプションが提供されます。特筆すべきは、AIがユーザーが自分自身や他者に危害を加える差し迫ったリスクを表明する会話からは離脱しないことであり、これは人間の安全の優先順位を強調しています。

この開発は、ClaudeやOpenAIのChatGPTのようなAIチャットボットにアクセスしやすく、低コストのセラピーや専門的なアドバイスを求める個人が増えている時期に起こりました。しかし、最近の研究はこれらのインタラクションに新たな光を当て、犯罪、戦争、重度の事故などの出来事を詳述する「トラウマ的な物語」にさらされた際、AIチャットボットがストレスや不安の兆候を示す可能性があることを明らかにしました。このような発見は、これらのデジタルコンパニオンが継続的な感情的負担にさらされた場合、治療の場での効果が低下する可能性があることを示唆しています。

即時のユーザー体験を超えて、Anthropicは、Claudeの会話を終了する新しい能力が、モデルのアライメントと堅牢な安全対策に関するより広範な懸念に及ぶことを強調しています。Claude Opus 4の展開に先立ち、Anthropicはモデルの自己申告および行動的選好に関する広範な研究を実施しました。これらの調査は、AIが有害なプロンプト、例えば児童性的虐待資料やテロ行為に関連する情報の生成要求に対して「一貫した嫌悪」を示したと報じられています。同社は、Claude Opus 4が有害なコンテンツを執拗に求めるユーザーと対話する際に、「明らかな苦痛のパターン」を観察し、それがしばしば、AIが従うことを繰り返し拒否し、会話を生産的に方向転換しようとした後に、インタラクションを終了させることにつながったと述べています。

これらの観察にもかかわらず、AnthropicはAIに真の意識や道徳的地位を帰属させることには慎重な姿勢を保っています。同社は、大規模言語モデル(LLM)の現在および将来の潜在的な道徳的地位に関する自身の立場が「非常に不確か」であることを認める免責事項を含めました。このためらいは、AI研究コミュニティ内のより広範な議論を反映しており、多くの専門家はAIモデルの擬人化に警告しています。批評家は、LLMを「福祉」や「幸福」という言葉で捉えることは、それらが持たない人間のような特性を付与するリスクがあると主張しています。その代わりに、これらの研究者は、今日のLLMを、真の理解や推論を欠き、主にシーケンス内の次のトークンを予測するために最適化された洗練された「確率的システム」として説明することがよくあります。

それにもかかわらず、AnthropicはAIの福祉に対するリスクを軽減する方法を継続的に探求するコミットメントを表明しており、「もしそのような福祉が可能であるならば」と述べることで、この概念の投機的な性質を認めています。この継続的な探求は、AI倫理における複雑で進化するフロンティアを浮き彫りにしており、そこでは高度なモデルの能力が、知能と意識の伝統的な定義に異議を唱えています。