AnthropicによるClaudeの多層AI安全戦略

Anthropicは、その人気AIモデルClaudeが有用性を保ちつつ、危害の永続化を積極的に防ぐことを目的とした、多面的な安全戦略の複雑な詳細を公開しました。この野心的な取り組みの中核をなすのは、Anthropicのセーフガードチームです。このチームは、政策専門家、データサイエンティスト、エンジニア、脅威アナリストからなる学際的なグループです。彼らの集合的な専門知識は、悪意のあるアクターの戦術を予測し、対抗することを目指しており、AI安全へのアプローチは、基礎的なルール設定から継続的な脅威検出まで、複数の防御層を持つ要塞化された城に似ています。

最初の防衛線は、Claudeの適切かつ禁止された使用に関する決定的な規則書として機能する包括的な「利用ポリシー」です。このポリシーは、選挙の公平性や子どもの安全といった重要な問題に加え、金融や医療といった機密性の高い分野での責任ある使用について明確なガイダンスを提供します。これらのガイドラインを策定するために、セーフガードチームは「統合危害フレームワーク」を採用しています。これは、厳格な評価システムではなく、物理的、心理的、経済的、社会的な側面における潜在的な負の影響を評価するための構造化された方法です。このフレームワークは、リスクを徹底的に検討することで意思決定を支援します。さらに、同社は外部の専門家を招き、「ポリシー脆弱性テスト」を実施しています。テロ対策や子どもの安全などの分野の背景を持つこれらの専門家は、潜在的な弱点や脆弱性を明らかにするために、Claudeに挑戦的なクエリを厳しく投げかけます。この積極的なアプローチの顕著な例は、2024年の米国選挙中に発生しました。戦略対話研究所との協力後、AnthropicはClaudeが誤って古い投票情報を提供する可能性があることを特定しました。これに対応し、彼らは迅速にバナーを統合し、ユーザーをTurboVoteに誘導しました。これは、現在の非党派的な選挙データの信頼できる情報源です。

Claudeに安全性を組み込む作業は、開発の基礎レベルから始まります。Anthropicのセーフガードチームは、AIのトレーニングを担当する開発者と密接に連携し、重要な価値観をモデル自体に直接組み込んでいます。このコラボレーションは、Claudeが何をすべきか、何をすべきでないかを決定します。戦略的パートナーシップもこのプロセスに不可欠です。例えば、危機支援のリーダーであるThroughLineと提携することで、AnthropicはClaudeが精神衛生や自傷行為に関するデリケートな会話を、単に話題をそらすのではなく、共感と配慮をもって扱えるように装備しました。この綿密なトレーニングこそが、Claudeが違法行為、悪意のあるコードの生成、詐欺の作成に関連する要求を拒否するようにプログラムされている理由です。

Claudeの新しいバージョンが一般公開される前に、3つの重要なタイプの評価を含む徹底的な評価プロセスが行われます。安全評価では、複雑で長時間の会話の中であっても、Claudeが確立されたルールを遵守しているかを厳密にテストします。サイバー脅威や生物学的リスクを伴うハイステークスなアプリケーションの場合、専門的なリスク評価が実施され、これはしばしば政府や業界のパートナーと協力して行われます。最後に、バイアス評価が実行され、公平性を確保します。これにより、Claudeがすべてのユーザーに対して信頼できる正確な応答を提供していることを確認し、性別や人種などの要因に基づく政治的傾向や偏った出力がないかを積極的にチェックします。この集中的なテスト体制は、Claudeのトレーニングの有効性を確認し、リリース前に追加の保護措置が必要かどうかを特定するために不可欠です。

Claudeが稼働すると、Anthropicは自動化システムと人間による監視を組み合わせて、揺るぎない警戒を維持します。このリアルタイム監視の主要な構成要素は、「分類器」として知られる特殊なClaudeモデルです。これらは、ポリシー違反が発生したときにそれを検出するように特別に訓練されています。分類器が問題を検出した場合、スパムのような有害なコンテンツの生成を回避するようにClaudeの応答を巧妙に誘導することから、警告を発したり、繰り返しの違反者に対してアカウントを停止したりするなど、さまざまな介入をトリガーできます。即時の対応だけでなく、チームはより広範な使用パターンも分析します。彼らはプライバシー保護ツールを活用して新たなトレンドを特定し、階層的要約などの技術を用いて、組織的な影響力キャンペーンのような大規模な悪用を検出します。これには、深いデータ分析と、悪意のある活動が議論される可能性のあるオンラインフォーラムの監視を含む、新たな脅威の継続的な探索が含まれます。

Anthropicは、AIの安全性を確保することが単独で取り組めるものではないことを認識しています。同社は、研究者、政策立案者、そして一般市民との積極的な協力を約束しており、人工知能のために最も堅牢で効果的なセーフガードを構築するには、集団的な努力が最も重要であると認識しています。

AnthropicによるClaudeの多層AI安全戦略

関連記事

ゴールドマン・サックスのセキュアAIプラットフォーム：ファイアウォール内LLM展開とその影響

RubrikがAIエージェントの誤動作に対応する「元に戻すボタン」を発表

GoogleフォトでGemini AIを無効化し、従来の検索に戻す方法