Des Pigeons à l'IA : L'Héritage de Skinner sur l'Apprentissage Automatique

Technologyreview

Au milieu de la Seconde Guerre mondiale, alors que les physiciens s’efforçaient de percer les secrets de l’atome pour le projet Manhattan, le psychologue américain B.F. Skinner se lançait dans sa propre entreprise gouvernementale clandestine. Son objectif n’était pas une arme plus destructrice, mais plutôt une arme plus précise. Inspiré par un vol d’oiseaux en formation aux côtés de son train, Skinner les imagina comme des « dispositifs » dotés d’une vision et d’une maniabilité exceptionnelles capables de guider des missiles.

Expérimentant initialement avec des corbeaux, qui se révélèrent peu coopératifs, Skinner se tourna vers le pigeon, plus malléable, donnant naissance au « Projet Pigeon ». Bien que les pigeons ordinaires, Columba livia, fussent à peine considérés comme intelligents, ils se montrèrent remarquablement doués en laboratoire. Skinner les entraîna avec des récompenses alimentaires pour qu’ils picorent des cibles spécifiques sur des photographies aériennes, les imaginant finalement attachés à une ogive, dirigeant le missile en picorant une image en direct projetée sur un écran. L’armée n’a jamais déployé ces kamikazes aviaires, mais les expériences de Skinner ont profondément façonné sa vision : le pigeon, déclara-t-il en 1944, était « un instrument extrêmement fiable » pour étudier les processus fondamentaux de l’apprentissage, une créature pratique qui « peut être transformée en machine ».

Alors que beaucoup retracent les origines de l’intelligence artificielle à la science-fiction ou à des expériences de pensée comme le test de Turing, un précurseur moins célébré, mais tout aussi crucial, réside dans les recherches de Skinner sur les pigeons au milieu du XXe siècle. Skinner a défendu l’« association » — le processus d’essai-erreur consistant à lier une action à une récompense ou une punition — comme le bloc de construction fondamental de tout comportement, non seulement chez les pigeons mais chez tous les organismes vivants, y compris les humains. Ses théories « béhavioristes » sont tombées en désuétude auprès des psychologues et des chercheurs en animaux dans les années 1960, mais elles ont trouvé un nouveau foyer inattendu en informatique, jetant finalement les bases de nombreux outils d’IA de pointe actuels, issus d’entreprises comme Google et OpenAI.

Ces entreprises emploient de plus en plus une forme d’apprentissage automatique dont le concept central, le renforcement, est directement dérivé de l’école de psychologie de Skinner. Ses principaux architectes, les informaticiens Richard Sutton et Andrew Barto, ont reçu le prix Turing 2024, largement considéré comme le prix Nobel de l’informatique, pour leurs contributions. L’apprentissage par renforcement a permis aux ordinateurs de conduire des véhicules, de résoudre des problèmes mathématiques complexes et de vaincre des grands maîtres dans des jeux comme les échecs et le Go. Crucialement, il réalise ces prouesses non pas en imitant les rouages complexes de l’esprit humain, mais en suralimentant les processus associatifs simples observés dans le cerveau du pigeon.

Sutton a qualifié cela de « leçon amère » tirée de 70 ans de recherche en IA : l’intelligence humaine n’a pas servi de modèle idéal pour l’apprentissage automatique. Au lieu de cela, ce sont les principes apparemment humbles de l’apprentissage associatif qui alimentent des algorithmes capables de simuler, voire de surpasser les humains dans diverses tâches. Si l’IA est véritablement sur le point d’agir de manière autonome, alors nos futurs seigneurs numériques pourraient ressembler davantage à des « rats ailés » avec des cerveaux de la taille d’une planète qu’à nous.

Les récents triomphes de l’IA incitent désormais certains chercheurs en animaux à réexaminer l’évolution de l’intelligence naturelle. Johan Lind, biologiste à l’Université de Stockholm, met en lumière le « paradoxe de l’apprentissage associatif » : le processus est souvent écarté par les biologistes comme étant trop simpliste pour produire des comportements animaux complexes, pourtant il est célébré pour générer des capacités similaires à celles des humains chez les ordinateurs. Cette réévaluation suggère un rôle bien plus important pour l’apprentissage associatif chez les animaux intelligents comme les chimpanzés et les corbeaux, et même une complexité auparavant sous-estimée chez des créatures longtemps considérées comme simples d’esprit, telles que le pigeon commun.

Le travail de Skinner, s’appuyant sur les découvertes d’Ivan Pavlov de la fin du XIXe siècle sur le conditionnement classique, a étendu les principes du conditionnement des réflexes involontaires à l’ensemble du comportement d’un animal. Il a théorisé que « le comportement est façonné et maintenu par ses conséquences », ce qui signifie qu’une action ayant des résultats souhaitables serait « renforcée » et susceptible d’être répétée. Il a systématiquement renforcé les comportements, apprenant aux rats à manipuler des billes et aux pigeons à jouer de simples mélodies. Skinner a soutenu que ce « conditionnement opérant » était le bloc de construction universel du comportement, prônant une psychologie axée uniquement sur des actions observables et mesurables, sans référence à un « agent interne ».

Cependant, les idées de Skinner, en particulier son application au langage humain dans son livre de 1957 Verbal Behavior, ont fait l’objet d’une critique cinglante de Noam Chomsky, déplaçant l’attention de la psychologie vers des capacités « cognitives » innées comme la logique et la pensée symbolique. Les biologistes ont également riposté, arguant que les espèces ont évolué des comportements spécifiques, souvent hérités, adaptés à leurs habitats, plutôt que de s’appuyer sur un mécanisme unique et élémentaire.

Dans les années 1970, lorsque Sutton se pencha sur le travail de Skinner, de nombreux chercheurs étaient passés des pigeons à des animaux à plus gros cerveau, recherchant des comportements cognitifs plus sophistiqués. Pourtant, Sutton trouva ces « vieilles expériences » particulièrement instructives pour l’apprentissage automatique, notant une absence distincte d’« apprentissage instrumental » en ingénierie. Les tentatives antérieures d’IA, souvent appelées « IA symbolique », essayaient d’imiter la pensée humaine en codant des règles alambiquées. Ces programmes peinaient avec des tâches de base comme la reconnaissance de formes, se révélant trop limités pour la résolution de problèmes complexes.

La recherche sur les pigeons, cependant, offrait une voie alternative. Une étude de 1964 a démontré que les pigeons pouvaient apprendre à distinguer entre des photographies avec et sans personnes, simplement en étant récompensés pour avoir picoré les bonnes images. Cela suggérait que les concepts et les catégories pouvaient être appris par l’apprentissage associatif seul, sans règles explicites.

Lorsque Sutton commença à collaborer avec Andrew Barto sur l’IA à la fin des années 1970, leur objectif était de créer un « agent complet, interactif et cherchant un but », semblable à un pigeon ou un rat, capable d’explorer et d’influencer son environnement. Leur approche, qu’ils ont baptisée « apprentissage par renforcement », était centrée sur deux fonctions : la recherche d’actions et la mémorisation des actions qui produisaient des récompenses dans des situations spécifiques. En 1998, leur livre séminal, Reinforcement Learning: An Introduction, a consolidé le concept. À mesure que la puissance de calcul a augmenté au cours des deux décennies suivantes, il est devenu possible d’« entraîner » des systèmes d’IA, en faisant essentiellement passer le « pigeon » d’IA par des millions d’essais.

Cela a mené à des percées comme AlphaGo Zero de Google DeepMind en 2017. Entièrement construit grâce à l’apprentissage par renforcement, AlphaGo Zero a commencé sans aucune connaissance du jeu de Go, mais a atteint une « performance surhumaine » en 40 jours, en pionnier même de nouvelles stratégies. Ses créateurs ont noté qu’il a redécouvert des millénaires de connaissances humaines du Go et développé de nouvelles perspectives, tout cela en étant simplement récompensé pour les victoires et pénalisé pour les défaites.

Aujourd’hui, l’apprentissage par renforcement est de plus en plus intégré dans les produits d’IA grand public, y compris les chatbots avancés. Alors que les premiers modèles d’IA générative utilisaient l’« apprentissage supervisé » sur des données étiquetées par des humains, l’apprentissage par renforcement affine désormais les résultats et est même utilisé pour entraîner des modèles de « raisonnement » en fournissant des incitations plutôt que des instructions explicites. Cependant, de nombreux informaticiens, dont Sutton, rejettent les affirmations de « raisonnement » de l’IA comme du marketing, arguant que ces modèles reposent uniquement sur la recherche et la mémoire pour former des associations et maximiser les récompenses, et non sur une véritable cognition. Pourtant, Sutton et ses collègues affirment que la méthode du pigeon — l’apprentissage par essai-erreur pour les récompenses — est suffisamment puissante pour générer des comportements présentant « la plupart, sinon toutes les capacités étudiées en intelligence naturelle et artificielle », y compris toute la richesse du langage humain.

Si les ordinateurs peuvent accomplir de telles prouesses avec un cerveau de type pigeon, alors certains chercheurs en animaux se demandent si les pigeons eux-mêmes ne méritent pas plus de crédit. Le psychologue Ed Wasserman de l’Université de l’Iowa a entraîné des pigeons à réussir une tâche de catégorisation complexe qui déconcertait les étudiants de premier cycle. Les étudiants cherchaient des règles en vain, tandis que les pigeons développaient simplement un « sens » intuitif pour les catégories par la pratique et l’association. Wasserman a même entraîné des pigeons à détecter des tissus cancéreux et des symptômes de maladies cardiaques dans des scanners médicaux avec une précision comparable à celle de médecins expérimentés. Il trouve déroutant que l’apprentissage associatif soit souvent considéré comme un mécanisme rudimentaire, insuffisant pour l’intelligence d’animaux comme les singes ou les corbeaux.

Lind, le biologiste, fait écho à ce sentiment, trouvant ironique que les processus associatifs, fondamentaux pour le progrès de l’IA, soient considérés comme trop simplistes pour l’intelligence biologique. Il cite les travaux de Sutton et Barto dans sa recherche biologique et propose que des comportements flexibles comme l’apprentissage social et l’utilisation d’outils pourraient découler de l’apprentissage associatif, plutôt que de nécessiter des mécanismes cognitifs complexes.

Bien que certains puissent se sentir mal à l’aise face à une résurgence de la théorie béhavioriste, arguer que les animaux apprennent par association n’équivaut pas à les qualifier de simples d’esprit. Des scientifiques comme Lind et Wasserman reconnaissent le rôle de l’instinct et de l’émotion dans le comportement animal. Leur point est que l’apprentissage associatif est un mécanisme bien plus puissant, voire « cognitif », que ce que beaucoup de leurs pairs croient. Comme l’a suggéré le psychologue Robert Rescorla, dont le travail a influencé à la fois Wasserman et Sutton, l’association n’est pas un « processus mécanique de bas niveau » mais « un moyen primaire par lequel l’organisme représente la structure de son monde ».

C’est vrai même pour un pigeon de laboratoire, soigneusement contrôlé dans une boîte expérimentale. L’apprentissage du pigeon s’étend au-delà de la tâche immédiate, construisant un modèle complet de son environnement et des relations entre ses parties. Ce mécanisme partagé soulève une question cruciale, amplifiée par l’essor de l’IA : Comment attribuons-nous la sentience à d’autres êtres vivants ? Les pigeons dans des tâches de discrimination de drogues, par exemple, démontrent la capacité d’expérimenter et de différencier des états internes, soulevant la question de savoir si cela est « équivalent à l’introspection ».

Bien que l’IA et les animaux partagent des mécanismes associatifs, il y a plus dans la vie que le comportement et l’apprentissage. Un pigeon mérite une considération éthique non seulement pour la façon dont il apprend, mais aussi pour ce qu’il ressent. Un pigeon peut éprouver de la douleur et de la souffrance ; un chatbot IA ne le peut pas, quelle que soit la conviction avec laquelle il simule la sentience. Les investissements significatifs dans la recherche en IA imposent désormais un engagement similaire à comprendre la cognition et le comportement animal, non seulement pour distinguer la véritable sentience d’une performance convaincante, mais aussi pour acquérir une compréhension plus profonde de nous-mêmes. Après tout, les humains aussi apprennent souvent par association, en particulier pour des tâches complexes et intuitives comme un sommelier discernant les nuances du vin, ou les étudiants de Wasserman maîtrisant finalement son expérience de catégorisation — non par des règles, mais par le ressenti. Le modeste pigeon de laboratoire, il s’avère, n’est pas seulement dans nos ordinateurs ; son moteur d’apprentissage est fondamental pour nos propres cerveaux, alimentant certaines des réalisations les plus impressionnantes de l’humanité.