从鸽子到AI:斯金纳研究如何塑造现代机器学习

Technologyreview

二战期间,当物理学家们为曼哈顿计划争分夺秒地揭开原子秘密时,美国心理学家B.F.斯金纳也启动了他自己的秘密政府项目。他的目标不是制造更具破坏性的武器,而是更精确的武器。斯金纳受到一群与火车编队飞行的鸟儿的启发,将它们设想为拥有卓越视觉和机动性的“装置”,可以引导导弹。

最初他用乌鸦做实验,但它们不合作,于是斯金纳转向了更温顺的鸽子,由此诞生了“鸽子计划”。尽管普通的鸽子(Columba livia)几乎不被认为是聪明的,但它们在实验室中表现出惊人的适应能力。斯金纳通过食物奖励训练它们啄击航空照片上的特定目标,最终设想将它们绑在弹头中,通过啄击投射到屏幕上的实时图像来引导导弹。军方从未部署过这些“禽类神风特攻队”,但斯金纳的实验深刻地塑造了他的观点:1944年,他宣称鸽子是研究学习基本过程的“极其可靠的工具”,是一种“可以被制造成机器”的实用生物。

虽然许多人将人工智能的起源追溯到科幻小说或图灵测试等思想实验,但一个鲜为人知却同样关键的先驱,在于斯金纳20世纪中叶的鸽子研究。斯金纳倡导“联结”(将行动与奖励或惩罚联系起来的试错过程)是所有行为的基本组成部分,不仅限于鸽子,而是包括人类在内的所有生物体。他的“行为主义”理论在1960年代失宠于心理学家和动物研究者,但它们在计算机科学中找到了意想不到的新家,最终为当今谷歌和OpenAI等公司的许多领先AI工具奠定了基础。

这些公司越来越多地采用一种机器学习形式,其核心概念“强化”直接源于斯金纳的心理学流派。其主要设计者,计算机科学家理查德·萨顿(Richard Sutton)和安德鲁·巴托(Andrew Barto),因其贡献被授予2024年图灵奖,该奖项被广泛认为是计算机科学领域的诺贝尔奖。强化学习已使计算机能够驾驶车辆、解决复杂的数学问题,并成功击败国际象棋和围棋等游戏中的特级大师。至关重要的是,它实现这些壮举并非通过模仿人类思维的复杂运作,而是通过超强地利用在鸽子大脑中观察到的简单联结过程。

萨顿将此称为70年AI研究中的“痛苦教训”:人类智能并非机器学习的理想模型。相反,正是看似微不足道的联结学习原则,驱动着能够模拟甚至超越人类在各种任务中表现的算法。如果AI真的即将实现自主行动,那么我们未来的数字霸主可能更像拥有行星般大脑的“带翅膀的老鼠”,而不是像我们人类。

AI最近的成功正促使一些动物研究者重新审视自然智能的演化。斯德哥尔摩大学的生物学家约翰·林德(Johan Lind)强调了“联结学习悖论”:生物学家常常认为这个过程过于简单,无法产生复杂的动物行为,但在计算机中,它却因生成类人能力而备受赞誉。这种重新评估表明,联结学习在黑猩猩和乌鸦等智能动物中扮演着更重要的角色,而且,对于长期被认为是头脑简单的生物,如普通鸽子,其复杂性也曾被低估。

斯金纳的工作建立在伊万·巴甫洛夫19世纪末经典条件反射的发现之上,将条件反射的原理从非自主反射扩展到动物的整个行为。他理论化地指出“行为由其结果塑造和维持”,这意味着具有理想结果的行动会得到“强化”并可能重复。他系统地强化行为,教会老鼠玩弹珠,教会鸽子演奏简单的曲调。斯金纳认为,这种“操作性条件反射”是行为的普遍组成部分,主张心理学应只关注可观察、可测量的行动,而不提及“内在主体”。

然而,斯金纳的思想,特别是他在1957年出版的《言语行为》一书中将其应用于人类语言的观点,遭到了诺姆·乔姆斯基的严厉批判,使心理学的焦点转向了逻辑和符号思维等与生俱来的“认知”能力。生物学家也提出了反驳,认为物种演化出了特定且通常是遗传的行为,这些行为是为适应其栖息地而量身定制的,而不是依赖单一的基本机制。

到了20世纪70年代,当萨顿深入研究斯金纳的工作时,许多研究人员已经从鸽子转向了大脑更大的动物,寻求更复杂的认知行为。然而,萨顿发现这些“旧实验”对机器学习具有独特的启发性,他注意到工程领域明显缺乏“工具性学习”。早期的人工智能尝试,通常被称为“符号AI”,试图通过编码复杂的规则来模仿人类思维。这些程序在模式识别等基本任务上举步维艰,被证明对解决复杂问题来说过于有限。

然而,鸽子研究提供了一条替代途径。1964年的一项研究表明,鸽子可以通过简单地因啄击正确图像而获得奖励,从而学会区分有人的照片和没有人的照片。这表明概念和类别可以通过单独的联结学习来学习,而无需明确的规则。

20世纪70年代末,当萨顿开始与安德鲁·巴托合作研究人工智能时,他们的目标是创建一个“完整、交互式、目标导向的智能体”,类似于鸽子或老鼠,能够探索并影响其环境。他们的方法,被称为“强化学习”,围绕着两个功能:搜索行动和记住在特定情况下哪些行动带来了奖励。1998年,他们的开创性著作《强化学习:导论》巩固了这一概念。在接下来的二十年中,随着计算能力的飙升,训练AI系统成为可能,这本质上是将AI“鸽子”进行数百万次试验。

这导致了2017年谷歌DeepMind的AlphaGo Zero等突破。AlphaGo Zero完全通过强化学习构建,在没有任何围棋知识的情况下开始,却在40天内达到了“超人表现”,甚至开创了新的策略。其创造者指出,它重新发现了数千年的人类围棋知识,并通过简单地因获胜而获得奖励、因失败而受到惩罚,从而发展出新的见解。

如今,强化学习越来越多地被整合到面向消费者的AI产品中,包括先进的聊天机器人。虽然早期的生成式AI模型使用人类标记数据进行“监督学习”,但强化学习现在可以微调结果,甚至通过提供激励而非明确指令来训练“推理”模型。然而,包括萨顿在内的许多计算机科学家将AI“推理”的主张斥为营销,认为这些模型仅仅依靠搜索和记忆来形成联结并最大化奖励,而非真正的认知。然而,萨顿和他的同事们认为,鸽子的方法——通过试错学习获得奖励——足够强大,可以驱动表现出“自然和人工智能研究中大多数(如果不是全部)能力”的行为,包括人类语言的全部丰富性。

如果计算机能够以鸽子般的大脑实现这样的壮举,那么一些动物研究者质疑鸽子本身是否应该获得更多赞誉。爱荷华大学的心理学家埃德·瓦瑟曼(Ed Wasserman)训练鸽子成功完成了一项复杂的分类任务,这项任务甚至难倒了本科生。学生们徒劳地寻找规则,而鸽子则通过练习和联结,简单地对类别形成了直观的“感觉”。瓦瑟曼甚至训练鸽子在医学扫描中检测癌组织和心脏病症状,其准确性可与经验丰富的医生媲美。他觉得令人费解的是,联结学习常被视为一种粗糙的机制,不足以解释猿类或乌鸦等动物的智能。

生物学家林德也表达了这种看法,他觉得联结过程(AI进步的基础)被认为对生物智能过于简单化,这很讽刺。他在自己的生物学研究中引用了萨顿和巴托的工作,并提出社交学习和工具使用等灵活行为可能源于联结学习,而不需要复杂的认知机制。

尽管有些人可能对行为主义理论的复兴感到不安,但认为动物通过联结学习并不等同于将它们贴上头脑简单的标签。林德和瓦瑟曼等科学家承认本能和情感在动物行为中的作用。他们的观点是,联结学习是一种远比许多同行认为的更强大、甚至更“认知”的机制。正如心理学家罗伯特·雷斯科拉(Robert Rescorla)(其工作影响了瓦瑟曼和萨顿)所暗示的,联结并非“低级机械过程”,而是“有机体表征其世界结构的主要方式”。

即使对于在实验箱中受到精心控制的实验室鸽子来说,情况也是如此。鸽子的学习超越了眼前的任务,构建了对其环境及其各部分之间关系的全面模型。这种共享机制提出了一个关键问题,并因AI的兴起而被放大:我们如何将感知能力归因于其他生物?例如,在药物辨别任务中,鸽子表现出体验和区分内部状态的能力,这引发了这是否“等同于内省”的问题。

尽管AI和动物共享联结机制,但生命远不止行为和学习。鸽子值得伦理考量,不仅因为它如何学习,还因为它能感受到什么。鸽子可以体验痛苦和折磨;而AI聊天机器人不能,无论它模拟感知能力多么令人信服。目前对AI研究的巨大投入,也迫使我们对理解动物认知和行为做出类似的承诺,这不仅是为了区分真正的感知能力和令人信服的表现,也是为了更深入地了解我们自己。毕竟,人类也常常通过联结学习,尤其是在复杂的、直观的任务中,比如品酒师辨别葡萄酒的细微差别,或者瓦瑟曼的学生最终掌握他的分类实验——不是通过规则,而是通过感觉。事实证明,不起眼的实验室鸽子,不仅存在于我们的计算机中;它的学习引擎是我们自身大脑的基础,驱动着人类一些最令人印象深刻的成就。