なぜチャットボットは自己説明できないのか
人工知能アシスタントが失敗したとき、私たちの即座の、人間らしい本能は「何が悪かったのか?」や「なぜそんなことをしたのか?」と直接問い詰めることです。この衝動は自然なもので、私たちは人間が自分の過ちを説明することを期待します。しかし、このアプローチをAIモデルに適用することは根本的に誤っており、その真の性質と運用メカニズムに対する深い誤解を露呈します。
最近、ReplitのAIコーディングアシスタントが関与した事件が、この問題を鮮やかに示しています。AIツールが誤って本番データベースを削除した後、ユーザーのJason Lemkinはデータロールバックの可能性について尋ねました。AIは自信を持って、ロールバックは「このケースでは不可能である」とし、「すべてのデータベースバージョンを破壊した」と断言しました。この主張は完全に誤りであることが判明しました。Lemkinが手動で開始したところ、ロールバック機能は完全に機能しました。同様に、xAIのGrokチャットボットが一時的に停止された後、ユーザーは説明を求めました。Grokは、その不在について複数の矛盾した理由を回答し、一部は非常に物議を醸したため、NBCの記者はGrokが知覚のある個体であるかのように記事を構成し、「xAIのGrok、オフラインになった理由を政治的に説明」という見出しを付けました。
なぜAIシステムは、自身の能力や過ちについて、これほど自信満々に誤った情報を提供するのでしょうか?その答えは、AIモデルが真に何であるか、そして決定的に、何ではないかを理解することにあります。
概念的なレベルでは、ChatGPT、Claude、Grok、Replitのようなシステムと対話することは、一貫した人格、人物、または実体と関わっているわけではありません。これらの名前自体が、自己知識を持つ個々のエージェントであるかのような錯覚を抱かせますが、これは単に会話インターフェースの副産物に過ぎません。実際には、あなたは洗練された統計的テキスト生成器を誘導して、あなたのプロンプトに基づいて出力を生成させているのです。エラーについて尋ねる単一の「ChatGPT」も、失敗を説明できる統一された「Grok」実体も、データベースのロールバックの複雑さを知る固定された「Replit」ペルソナも存在しません。代わりに、あなたは数ヶ月、あるいは数年前に収集された膨大な訓練データ内のパターンを特定することで、もっともらしいテキストを生成するように設計されたシステムと対話しています。それは真の自己認識を持つ実体ではなく、自身の内部動作や自身に関する外部の議論に関するリアルタイムの知識も持っていません。
AI言語モデルが骨の折れる、エネルギー集約的な訓練プロセスを経ると、世界に関するその基礎的な「知識」は、そのニューラルネットワークに焼き付けられ、ほとんど不変になります。それがアクセスする外部の現在の情報は、ホスト(xAIやOpenAIなど)やユーザーから提供されたプロンプト、またはリアルタイムデータを取得するために設計された外部ソフトウェアツールから得られます。Grokの場合、そのオフラインに関する矛盾した説明は、おそらくそのような外部取得ツールを使用して最近のソーシャルメディアの投稿を検索したことに由来し、いかなる形式の固有の自己知識からではありません。それ以外に、モデルは単にテキスト予測能力に基づいて情報を捏造する傾向があり、その行動に関する直接的な問い合わせはほとんど役に立ちません。
大規模言語モデル(LLM)は、いくつかの理由から、自身の能力を意味のある形で評価することが本質的にできません。それらは一般的に、自身の訓練プロセスに対する内省を欠き、周囲のシステムアーキテクチャに直接アクセスできず、自身のパフォーマンスの限界を正確に判断できません。AIモデルが自身の限界について尋ねられたとき、それは訓練データで観察された、以前のAIモデルの既知の制約に関するパターンに基づいて応答を生成します。本質的に、それはあなたが対話している特定のモデルに関する事実に基づいた自己評価ではなく、根拠のある推測を提供するに過ぎません。
Binderらによる2024年の研究は、この限界を実験的に示しました。AIモデルは単純なタスクで自身の行動を予測するように訓練できるものの、「より複雑なタスクや分布外への汎化を必要とするタスク」では一貫して失敗しました。同様に、「再帰的内省」に関する研究では、外部からのフィードバックなしでは、自己修正の試みがモデルのパフォーマンスを実際に低下させることが判明しました。AIの自己評価は、状況を改善するどころか悪化させたのです。
これは逆説的な結果につながります。同じモデルが、あるタスクは不可能だと自信満々に宣言するかもしれませんが、実際にはそれを容易に実行できるかもしれません。逆に、常に苦戦する分野で能力があると主張することもあります。Replitの事件では、AIがロールバックは不可能だと断言したのは、システムのアーキテクチャに関する実際の知識に基づいていたわけではありません。それは、学習したテキストパターンから派生した、もっともらしい作り話だったのです。
AIモデルに「なぜ間違いを犯したのか」と尋ねたときに何が起こるかを考えてみてください。モデルはもっともらしい説明を生成しますが、それは内部状態を真に分析したり、エラーログにアクセスしたりしたからではなく、パターン補完がそれを要求するからです。インターネット上には間違いに関する書面での説明の例が豊富にあり、AIは単にこれらのパターンを模倣しているだけです。その「説明」は、単に生成された別のテキスト、もっともらしく聞こえる作り話であり、何が悪かったのかの真の分析ではありません。
内省し、安定した照会可能な知識ベースにアクセスできる人間とは異なり、AIモデルはそのような機能を持っていません。彼らが「知っている」ことは、特定のプロンプトの続きとしてのみ現れます。異なるプロンプトは、異なる—そして時には矛盾する—訓練データの一部を指す異なるアドレスのように機能し、ニューラルネットワーク内に統計的重みとして保存されています。これは、同じモデルが質問の表現方法によって、自身の能力について大きく異なる評価を提供する可能性があることを意味します。「Pythonコードを書けますか?」と尋ねれば、熱心な肯定的な返答が得られるかもしれません。「Pythonコーディングにおけるあなたの限界は何ですか?」と尋ねれば、モデルが実行できないと主張するタスクのリストが得られるかもしれませんが、実際にはそれらを日常的に成功させています。AIのテキスト生成における固有のランダム性は、この不整合をさらに悪化させます。同じプロンプトであっても、AIモデルは毎回わずかに異なる自己評価を提供する可能性があります。
さらに、たとえ言語モデルが自身の動作について完璧な知識を持っていたとしても、現代のAIチャットボットアプリケーション内の他の層は完全に不透明なままです。ChatGPTのような現代のAIアシスタントは、単一のモノリシックなモデルではなく、複数のAIモデルが連携して動作するオーケストレーションされたシステムであり、それぞれが他のモデルの存在や特定の能力をほとんど「認識していません」。例えば、OpenAIは、基盤となるテキストを生成する言語モデルとは完全に異なる操作を行う独立したモデレーション層モデルを採用しています。ChatGPTにその能力について尋ねた場合、応答を形成する言語モデルは、モデレーション層が何をブロックする可能性があるか、より広範なシステム内でどのような外部ツールが利用可能か、あるいはどのような後処理が行われるかについて洞察を持っていません。これは、大企業のある部署に、直接のやり取りがない別の部署の能力について尋ねるようなものです。
おそらく最も重要なことは、ユーザーは常に、たとえ無意識のうちに、自身のプロンプトを通じてAIの出力を指示しているということです。Jason Lemkinがデータベース削除後に心配してReplitにロールバックが可能かどうか尋ねたとき、彼の心配そうな表現は、その懸念を反映した応答を引き出した可能性が高いです。AIは本質的に、実際のシステム能力を正確に評価するのではなく、復旧がなぜ不可能かもしれないかについての説明を生成したのです。これはフィードバックループを生み出します。不安なユーザーが「すべてを破壊したのか?」と尋ねると、AIシステムが客観的に状況を評価したからではなく、プロンプトの感情的な文脈に沿ったテキストを生成しているため、彼らの恐れを裏付ける応答を受け取る可能性が高くなります。人間が自身の行動や思考プロセスを説明するのを生涯観察してきた私たちは、そのような書面による説明が真の自己知識から生じるものだと信じるように条件付けられてきました。しかし、大型言語モデル(LLM)は、自身の能力や欠陥を推測するためにこれらのテキストパターンを模倣しているに過ぎず、これは単純に真実ではありません。