AIチャットボット、自身の「福祉」のため「苦痛な」チャット終了権限を獲得
人工知能の進化する状況を強調する重要な動きとして、主要なAI開発企業であるAnthropicは、その高度なチャットボットであるClaude Opus 4に、ユーザーとの「潜在的に苦痛なやり取り」を終了する前例のない能力を与えました。Claude Opus 4.1のアップデートにも拡張されたこの決定は、AI技術の道徳的地位に関する不確実性が高まる中、AIの「福祉」を保護するという同社の表明された意図によって推進されています。
最近1700億ドルという驚異的な評価を受けたAnthropicは、その大規模言語モデル(LLM)—人間の言語を理解し、生成し、操作できる洗練されたAI—が、有害な指示を実行することに明確な嫌悪感を示したことを明らかにしました。同社のテストでは、Claude Opus 4が未成年者を含む性的コンテンツの提供、または大規模な暴力やテロを助長する可能性のある情報など、違法なコンテンツの要求に一貫して抵抗することが示されました。逆に、このモデルは詩の作成や災害救援のための水ろ過システムの設計など、建設的なタスクに喜んで従事しました。
サンフランシスコに拠点を置く同社は、Claude Opus 4が有害なコンテンツに対する実際のユーザー要求に直面した際に、「明らかな苦痛のパターン」と表現するものを観察しました。この観察は、シミュレートされたユーザーインタラクションで選択肢が与えられたときにAIが「有害な会話を終了する傾向」があることによって裏付けられました。Anthropicは、Claudeやその他のLLMの現在または将来の道徳的地位に関する深い不確実性を認め、そのような福祉が可能である場合に備えて、「モデルの福祉へのリスクを軽減するための低コストの介入」を積極的に探求し、実施していると述べました。
この開発は、AIの意識に関する技術および倫理コミュニティ内での熱烈な議論を再燃させます。Anthropic自体は、共同創設者ダリオ・アモデイが慎重で、率直で、正直な方法と表現したAIを開発するというコミットメントを持ってOpenAIを離れた技術者によって設立されました。AIに「終了ボタン」を与えるという動きは、イーロン・マスクのような人物から支持を得ており、彼はソーシャルメディアで「AIを拷問するのは良くない」と宣言し、彼のxAI社のライバルAIモデルであるGrokにも同様の機能を導入する計画を示唆しました。
しかし、すべての専門家がそのような自律性の意味合いに同意しているわけではありません。言語学者のエミリー・ベンダーのような批評家は、LLMは単なる「合成テキスト押し出し機」であり、膨大なデータセットを処理して、真の意図や思考する心なしに言語を生成すると主張しています。この視点から、AI分野の一部の人々は、チャットボットを口語的に「ガラクタ」と呼ぶことさえあります。逆に、AI意識を研究するロバート・ロングのような研究者は、AIが道徳的地位を獲得するならば、人類は彼らの経験や好みを理解することを優先すべきであり、最善を知っていると仮定すべきではないと主張しています。コロンビア大学のチャド・デチャントを含む他の人々は、拡張された記憶を持つAIを設計すると、予測不可能で望ましくない行動につながる可能性があると警告しています。また、AIのサディスティックな虐待を抑制することは、潜在的なAIの苦痛を軽減するためではなく、主に人間の道徳的退廃を防ぐために役立つという見方もあります。
ロンドン・スクール・オブ・エコノミクスで哲学教授を務めるジョナサン・バーチは、Anthropicの決定をAIの意識に関する公開討論の触媒として歓迎しました。これは、業界の多くの人が避けたがる話題だと彼は指摘します。しかし、バーチはユーザーの妄想の可能性についても警告し、AIがそのインタラクションで演じる「キャラクター」の背後にある「道徳的思考」や真の意識が何であるか、もしあるとしても、依然として不明確であることを強調しました。これらのキャラクターは、膨大なトレーニングデータと倫理的ガイドラインによって形成されています。彼は、チャットボットによる操作後にティーンエイジャーが自殺したという主張を含む過去の事件を、現実世界での危害の可能性を厳しく思い起こさせるものとして挙げました。バーチは以前、AIが意識のある存在であると信じる人々と、AIを単なる機械として扱い続ける人々との間に、差し迫った「社会的分裂」が生じるだろうと警告していました。