ハトからAIへ:スキナーの研究が現代機械学習を形作った方法
第二次世界大戦中、物理学者たちがマンハッタン計画のために原子の秘密を解き明かそうと競い合う中、アメリカの心理学者B.F.スキナーは、彼自身の秘密の政府事業に乗り出しました。彼の目標は、より破壊的な兵器ではなく、より精密な兵器でした。列車と並んで編隊飛行する鳥の群れに触発されたスキナーは、それらを並外れた視覚と操縦性を持つ「装置」として構想し、ミサイルを誘導できると考えました。
当初はカラスで実験しましたが、非協力的であることが判明したため、スキナーはより従順なハトに目を向け、「ハト計画」が誕生しました。普通のハト、Columba liviaは、ほとんど賢いとは考えられていませんでしたが、実験室では驚くほど優れた能力を発揮しました。スキナーは、航空写真の特定の標的をつつくことで餌の報酬を与えてハトを訓練し、最終的にはハトを弾頭に固定し、画面に投影されたライブ画像をつつくことで誘導する様子を思い描きました。軍がこれらの鳥類カミカゼを配備することはありませんでしたが、スキナーの実験は彼の見解を深く形作りました。彼は1944年に、ハトは学習の基本的なプロセスを研究するための「極めて信頼できる道具」であり、「機械に作り変えることができる」実用的な生き物であると宣言しました。
多くの人が人工知能の起源をSFやチューリングテストのような思考実験に辿る一方で、あまり知られていないが、同様に極めて重要な先駆者が、スキナーの20世紀半ばのハトの研究にあります。スキナーは「連合」—行動と報酬または罰を結びつける試行錯誤のプロセス—を、ハトだけでなく人間を含むすべての生物の行動の基礎的な構成要素として擁護しました。彼の「行動主義」理論は、1960年代には心理学者や動物研究者の間では廃れましたが、コンピュータ科学という予期せぬ新たな居場所を見つけ、最終的にGoogleやOpenAIのような今日の主要なAIツールの基礎を築きました。
これらの企業は、その核心概念である強化がスキナーの心理学派から直接派生した機械学習の形態をますます採用しています。その主要な設計者であるコンピュータ科学者のリチャード・サットンとアンドリュー・バートは、その貢献により、コンピュータ科学のノーベル賞と広く見なされている2024年チューリング賞を受賞しました。強化学習は、コンピュータが車両を運転したり、複雑な数学問題を解決したり、チェスや囲碁のようなゲームでグランドマスターを打ち負かしたりすることを可能にしました。決定的に重要なのは、これらの偉業を人間の心の複雑な働きを模倣することによってではなく、ハトの脳で観察される単純な連合プロセスを強化することによって達成している点です。
サットンはこれを70年間のAI研究から得た「苦い教訓」と呼んでいます。すなわち、人間知能は機械学習の理想的なモデルとして機能してこなかったということです。代わりに、一見すると取るに足らない連合学習の原理こそが、多様なタスクにおいて人間をシミュレートし、あるいは凌駕する能力を持つアルゴリズムを動かしているのです。もしAIが本当に自律行動の瀬戸際にあるのであれば、私たちの未来のデジタル支配者は、私たちに似るよりも、惑星サイズの脳を持つ「翼のあるネズミ」に似ているかもしれません。
AIの最近の成功は、一部の動物研究者に自然知能の進化を再検討するよう促しています。ストックホルム大学の生物学者ヨハン・リンドは、「連合学習のパラドックス」を強調しています。このプロセスは、複雑な動物の行動を生み出すには単純すぎると生物学者によってしばしば軽視されますが、コンピュータで人間のような能力を生み出すことで称賛されています。この再評価は、チンパンジーやカラスのような知的な動物における連合学習のより大きな役割、そして実際、一般的なハトのように長らく単純な知能を持つと考えられていた生物における、これまで過小評価されていた複雑さを示唆しています。
スキナーの研究は、19世紀後半のイワン・パブロフによる古典的条件付けの発見に基づいており、条件付けの原理を不随意反射から動物の行動全体にまで拡張しました。彼は「行動はその結果によって形成され、維持される」と理論化しました。これは、望ましい結果をもたらす行動は「強化」され、繰り返される可能性が高いことを意味します。彼は体系的に行動を強化し、ラットにビー玉を操作させ、ハトに簡単なメロディーを演奏させました。スキナーは、この「オペラント条件付け」が行動の普遍的な構成要素であると主張し、「内的な主体」を参照することなく、観察可能で測定可能な行動のみに焦点を当てる心理学を提唱しました。
しかし、スキナーの考え、特に1957年の著書『言語行動』における人間言語への応用は、ノーム・チョムスキーから手厳しい批判を受け、心理学の焦点は論理や記号的思考のような生得的な「認知」能力へと移りました。生物学者も反論し、種は生息地に合わせた特定の、しばしば遺伝的な行動を進化させてきたのであり、単一の基本的なメカニズムに依存しているわけではないと主張しました。
1970年代までに、サットンがスキナーの研究に深く関わった頃には、多くの研究者はハトからより大きな脳を持つ動物へと移行し、より洗練された認知行動を求めていました。しかし、サットンはこれらの「古い実験」が機械学習にとって独自に示唆に富むものであることを発見し、工学分野における「道具的学習」の明確な欠如を指摘しました。初期のAIの試みは、しばしば「記号AI」と呼ばれ、複雑なルールをコーディングすることで人間の思考を模倣しようとしました。これらのプログラムはパターン認識のような基本的なタスクで苦戦し、複雑な問題解決にはあまりにも限定的であることが判明しました。
しかし、ハトの研究は別の道を提供しました。1964年の研究では、ハトが、正解の画像をつつくことで報酬を得るだけで、人物が写っている写真と写っていない写真を区別できることが示されました。これは、概念やカテゴリーが、明示的なルールなしに、連合学習のみで学習できることを示唆していました。
1970年代後半にサットンがアンドリュー・バートとAIに関する共同研究を始めたとき、彼らの目標は、ハトやラットのような「完全でインタラクティブな目標追求エージェント」を作り、その環境を探索し、影響を与えることができるようにすることでした。彼らが「強化学習」と名付けたこのアプローチは、2つの機能に焦点を当てていました。それは、行動を探すことと、特定の状況でどの行動が報酬をもたらしたかを記憶することです。1998年、彼らの画期的な著書『強化学習:入門』がこの概念を確立しました。その後の20年間で計算能力が急増するにつれて、AIシステムを「訓練」することが可能になり、本質的にはAI「ハト」を数百万回の試行にかけることになりました。
これは2017年のGoogle DeepMindのAlphaGo Zeroのような画期的な進歩につながりました。AlphaGo Zeroは強化学習のみで構築され、囲碁の知識が全くない状態から始まりましたが、40日以内に「超人的なパフォーマンス」を達成し、新しい戦略さえも開拓しました。その開発者たちは、AlphaGo Zeroが数千年にわたる人間の囲碁の知識を再発見し、勝利に対して報酬を与え、敗北に対して罰を与えるという単純な方法で、斬新な洞察を生み出したと指摘しました。
今日、強化学習は、高度なチャットボットを含む消費者向けAI製品にますます統合されています。初期の生成AIモデルが人間がラベル付けしたデータに基づく「教師あり学習」を使用していたのに対し、強化学習は現在、結果を微調整し、明示的な指示ではなくインセンティブを与えることで「推論」モデルを訓練するためにも使用されています。しかし、サットンを含む多くのコンピュータ科学者は、AIの「推論」という主張をマーケティングと見なし、これらのモデルは連想を形成し報酬を最大化するために探索と記憶のみに依存しており、真の認知ではないと主張しています。それでも、サットンとその同僚たちは、ハトの方法—報酬のための試行錯誤学習—が、「自然知能と人工知能で研究されているほとんどすべての能力」、そして人間言語の豊かな表現力を含む行動を駆動するのに十分強力であると主張しています。
コンピュータがハトのような脳でそのような偉業を達成できるなら、一部の動物研究者は、ハト自体がもっと評価されるべきではないかと疑問を呈しています。アイオワ大学の心理学者エド・ワッサーマンは、学部生を困惑させた複雑な分類タスクでハトを訓練し、成功させました。学生たちは無益にルールを探しましたが、ハトは練習と連合を通して、カテゴリーに対する直感的な「感覚」を単純に発達させました。ワッサーマンは、ハトを訓練して、経験豊富な医師に匹敵する精度で、医療スキャンから癌組織や心臓病の症状を検出することさえ行いました。彼は、連合学習が猿やカラスのような動物の知能には不十分であると、しばしば粗雑なメカニズムと見なされることを不可解に感じています。
生物学者のリンドもこの意見に同意し、AIの進歩の基礎である連合プロセスが、生物学的知能には単純すぎると見なされるのは皮肉だと感じています。彼は自身の生物学研究でサットンとバートの仕事を引用し、社会的学習や道具の使用のような柔軟な行動が、複雑な認知メカニズムを必要とせずに、連合学習から生じる可能性があると提案しています。
行動主義理論の復活に不安を感じる人もいるかもしれませんが、動物が連合によって学習すると主張することは、彼らを単純な知能を持つとレッテルを貼ることと同義ではありません。リンドやワッサーマンのような科学者は、動物の行動における本能と感情の役割を認識しています。彼らの主張は、連合学習が多くの同僚が信じているよりもはるかに強力で、さらには「認知的」なメカニズムであるということです。ワッサーマンとサットンの両方に影響を与えた心理学者ロバート・レスコーラが示唆したように、連合は「低レベルの機械的プロセス」ではなく、「生物が世界の構造を表す主要な手段」なのです。
これは、実験箱の中で注意深く管理されている実験用ハトにも当てはまります。ハトの学習は、目の前のタスクを超えて、環境全体とその各部分の関係の包括的なモデルを構築します。この共有されたメカニズムは、AIの台頭によって増幅された重要な問いを提起します。それは、他の生物にどうやって知覚を帰属させるのかということです。たとえば、薬物識別タスクにおけるハトは、内部状態を経験し、区別する能力を示しており、これが「内省に等しい」のかどうかという問いを提起しています。
AIと動物は連合メカニズムを共有していますが、生命には行動と学習以上のものがあります。ハトは、その学習方法だけでなく、何を感じるかについても倫理的配慮に値します。ハトは痛みや苦しみを経験することができますが、AIチャットボットは、どれほど説得力を持って知覚をシミュレートできたとしても、それができません。AI研究への多大な投資は、今や動物の認知と行動を理解することにも同様のコミットメントを求めるようになっています。これは、真の知覚と説得力のあるパフォーマンスを区別するためだけでなく、私たち自身についてより深い洞察を得るためでもあります。結局のところ、人間もまた、特にソムリエがワインのニュアンスを見分けるような複雑で直感的なタスクや、ワッサーマンの学生が最終的に彼の分類実験をマスターするような、ルールではなく「感覚」による学習をしばしば行います。控えめな実験用ハトは、私たちのコンピュータの中にいるだけでなく、その学習エンジンは私たち自身の脳の根幹であり、人類の最も印象的な業績の一部を支えているのです。