Von Tauben zu KI: Skinners Forschung und modernes maschinelles Lernen

Technologyreview

Mitten im Zweiten Weltkrieg, während Physiker für das Manhattan-Projekt die Geheimnisse des Atoms entschlüsselten, begann der amerikanische Psychologe B.F. Skinner sein eigenes geheimes Regierungsvorhaben. Sein Ziel war keine zerstörerischere, sondern eine präzisere Waffe. Inspiriert von einem Vogelschwarm, der neben seinem Zug in Formation flog, stellte sich Skinner sie als „Geräte“ mit außergewöhnlicher Sicht und Manövrierfähigkeit vor, die Raketen lenken könnten.

Nachdem er zunächst mit Krähen experimentierte, die sich als unkooperativ erwiesen, wandte sich Skinner der zugänglicheren Taube zu und rief das „Taubenprojekt“ ins Leben. Obwohl gewöhnliche Tauben, Columba livia, kaum als intelligent galten, erwiesen sie sich im Labor als bemerkenswert geschickt. Skinner trainierte sie mit Futterbelohnungen dafür, auf bestimmte Ziele auf Luftbildern zu picken, und stellte sich schließlich vor, wie sie an einem Sprengkopf befestigt würden, um durch Picken auf ein auf einen Bildschirm projiziertes Live-Bild zu steuern. Das Militär setzte diese Vogel-Kamikazes nie ein, doch Skinners Experimente prägten seine Ansicht zutiefst: Die Taube, erklärte er 1944, sei „ein äußerst zuverlässiges Instrument“ zur Erforschung der grundlegenden Lernprozesse, eine praktische Kreatur, die „zu einer Maschine gemacht werden kann“.

Während viele die Ursprünge der künstlichen Intelligenz auf Science-Fiction oder Gedankenexperimente wie den Turing-Test zurückführen, liegt ein weniger gefeierter, aber ebenso entscheidender Vorläufer in Skinners Taubenforschung aus der Mitte des 20. Jahrhunderts. Skinner propagierte die „Assoziation“ – den Versuch-und-Irrtum-Prozess der Verknüpfung einer Handlung mit einer Belohnung oder Bestrafung – als grundlegenden Baustein allen Verhaltens, nicht nur bei Tauben, sondern bei allen Lebewesen, einschließlich des Menschen. Seine „behavioristischen“ Theorien fielen in den 1960er-Jahren bei Psychologen und Tierforschern in Ungnade, fanden aber in der Informatik ein unerwartetes neues Zuhause und legten letztlich den Grundstein für viele der heutigen führenden KI-Tools von Unternehmen wie Google und OpenAI.

Diese Unternehmen setzen zunehmend eine Form des maschinellen Lernens ein, dessen Kernkonzept, die Verstärkung, direkt aus Skinners Psychologieschule stammt. Ihre Hauptarchitekten, die Informatiker Richard Sutton und Andrew Barto, erhielten für ihre Beiträge den Turing Award 2024, der weithin als Nobelpreis der Informatik gilt. Reinforcement Learning hat es Computern ermöglicht, Fahrzeuge zu fahren, komplexe mathematische Probleme zu lösen und berühmterweise Großmeister in Spielen wie Schach und Go zu besiegen. Entscheidend ist, dass es diese Leistungen nicht durch Nachahmung der komplizierten Funktionsweise des menschlichen Geistes erreicht, sondern durch die Überladung der einfachen assoziativen Prozesse, die im Taubengehirn beobachtet werden.

Sutton hat dies als „bittere Lektion“ aus 70 Jahren KI-Forschung bezeichnet: Menschliche Intelligenz hat nicht als ideales Modell für maschinelles Lernen gedient. Stattdessen sind es die scheinbar bescheidenen Prinzipien des assoziativen Lernens, die Algorithmen antreiben, die in der Lage sind, Menschen bei verschiedenen Aufgaben zu simulieren oder sogar zu übertreffen. Wenn KI wirklich am Rande des autonomen Handelns steht, dann ähneln unsere zukünftigen digitalen Herren vielleicht eher „Ratten mit Flügeln“ und planetengroßen Gehirnen als uns selbst.

Die jüngsten Triumphe der KI veranlassen nun einige Tierforscher, die Evolution der natürlichen Intelligenz neu zu untersuchen. Johan Lind, Biologe an der Universität Stockholm, hebt das „Paradox des assoziativen Lernens“ hervor: Der Prozess wird von Biologen oft als zu simpel abgetan, um komplexe Tierverhaltensweisen zu erzeugen, doch er wird dafür gefeiert, menschenähnliche Fähigkeiten in Computern zu generieren. Diese Neubewertung deutet auf eine viel größere Rolle des assoziativen Lernens bei intelligenten Tieren wie Schimpansen und Krähen hin, und tatsächlich auf eine zuvor unterschätzte Komplexität bei Kreaturen, die lange als einfach gestrickt galten, wie der gewöhnlichen Taube.

Skinners Arbeit, aufbauend auf Ivan Pavlovs Entdeckungen der klassischen Konditionierung Ende des 19. Jahrhunderts, erweiterte die Prinzipien der Konditionierung von unwillkürlichen Reflexen auf das gesamte Verhalten eines Tieres. Er theoretisierte, dass „Verhalten durch seine Konsequenzen geformt und aufrechterhalten wird“, was bedeutet, dass eine Handlung mit wünschenswerten Ergebnissen „verstärkt“ und wahrscheinlich wiederholt würde. Er verstärkte Verhaltensweisen systematisch und brachte Ratten bei, Murmeln zu manipulieren, und Tauben, einfache Melodien zu spielen. Skinner argumentierte, dass diese „operante Konditionierung“ der universelle Baustein des Verhaltens sei, und plädierte für eine Psychologie, die sich ausschließlich auf beobachtbare, messbare Handlungen konzentriert, ohne Bezugnahme auf einen „inneren Akteur“.

Skinners Ideen, insbesondere seine Anwendung auf die menschliche Sprache in seinem 1957 erschienenen Buch Verbal Behavior, stießen jedoch auf vernichtende Kritik von Noam Chomsky, was den Fokus der Psychologie auf angeborene „kognitive“ Fähigkeiten wie Logik und symbolisches Denken verlagerte. Auch Biologen widersprachen und argumentierten, dass Arten spezifische, oft vererbte Verhaltensweisen entwickelt haben, die auf ihre Lebensräume zugeschnitten sind, anstatt sich auf einen einzigen, elementaren Mechanismus zu verlassen.

In den 1970er-Jahren, als Sutton sich mit Skinners Arbeit befasste, waren viele Forscher von Tauben zu Tieren mit größeren Gehirnen übergegangen, um anspruchsvollere kognitive Verhaltensweisen zu untersuchen. Doch Sutton fand diese „alten Experimente“ für das maschinelle Lernen einzigartig aufschlussreich und bemerkte eine deutliche Abwesenheit von „instrumentellem Lernen“ in der Ingenieurwissenschaft. Frühere KI-Versuche, oft als „symbolische KI“ bezeichnet, versuchten, menschliches Denken durch die Kodierung komplizierter Regeln nachzuahmen. Diese Programme kämpften mit grundlegenden Aufgaben wie der Mustererkennung und erwiesen sich als zu begrenzt für komplexe Problemlösungen.

Die Taubenforschung bot jedoch einen alternativen Weg. Eine Studie aus dem Jahr 1964 zeigte, dass Tauben lernen konnten, zwischen Fotos mit und ohne Menschen zu unterscheiden, einfach indem sie für das Picken der richtigen Bilder belohnt wurden. Dies deutete darauf hin, dass Konzepte und Kategorien allein durch assoziatives Lernen erlernt werden konnten, ohne explizite Regeln.

Als Sutton Ende der 1970er-Jahre mit Andrew Barto an KI zu arbeiten begann, war ihr Ziel, einen „vollständigen, interaktiven, zielsuchenden Agenten“ zu schaffen, ähnlich einer Taube oder Ratte, der in der Lage ist, seine Umgebung zu erkunden und zu beeinflussen. Ihr Ansatz, den sie „Reinforcement Learning“ nannten, konzentrierte sich auf zwei Funktionen: das Suchen nach Aktionen und das Erinnern daran, welche Aktionen in bestimmten Situationen Belohnungen hervorbrachten. 1998 festigte ihr bahnbrechendes Buch Reinforcement Learning: An Introduction das Konzept. Als die Rechenleistung in den nächsten zwei Jahrzehnten stark anstieg, wurde es möglich, KI-Systeme zu „trainieren“, indem die KI-„Taube“ im Wesentlichen Millionen von Versuchen durchlief.

Dies führte 2017 zu Durchbrüchen wie Google DeepMinds AlphaGo Zero. AlphaGo Zero, das vollständig durch Reinforcement Learning aufgebaut wurde, begann ohne Kenntnis des Go-Spiels und erreichte innerhalb von 40 Tagen eine „übermenschliche Leistung“, wobei es sogar neue Strategien entwickelte. Seine Schöpfer stellten fest, dass es Jahrtausende menschlichen Go-Wissens wiederentdeckte und neue Erkenntnisse gewann, alles, indem es einfach für Siege belohnt und für Niederlagen bestraft wurde.

Heute wird Reinforcement Learning zunehmend in verbraucherorientierte KI-Produkte integriert, einschließlich fortschrittlicher Chatbots. Während frühe generative KI-Modelle „überwachtes Lernen“ auf von Menschen gelabelten Daten verwendeten, verfeinert Reinforcement Learning nun die Ergebnisse und wird sogar verwendet, um „Argumentations“-Modelle zu trainieren, indem Anreize statt expliziter Anweisungen bereitgestellt werden. Viele Informatiker, darunter Sutton, lehnen jedoch Behauptungen von KI-„Argumentation“ als Marketing ab und argumentieren, dass diese Modelle ausschließlich auf Suche und Gedächtnis beruhen, um Assoziationen zu bilden und Belohnungen zu maximieren, nicht auf echter Kognition. Dennoch behaupten Sutton und seine Kollegen, dass die Methode der Taube – Versuch-und-Irrtum-Lernen für Belohnungen – mächtig genug ist, um Verhaltensweisen zu steuern, die „die meisten, wenn nicht alle Fähigkeiten, die in der natürlichen und künstlichen Intelligenz untersucht werden“, einschließlich des gesamten Reichtums der menschlichen Sprache, aufweisen.

Wenn Computer solche Leistungen mit einem taubenartigen Gehirn erzielen können, dann stellen einige Tierforscher die Frage, ob Tauben selbst mehr Anerkennung verdienen. Der Psychologe Ed Wasserman von der University of Iowa trainierte Tauben, eine komplexe Kategorisierungsaufgabe erfolgreich zu lösen, die Studenten überforderte. Die Studenten suchten fruchtlos nach Regeln, während die Tauben durch Übung und Assoziation einfach ein intuitives „Gefühl“ für die Kategorien entwickelten. Wasserman trainierte Tauben sogar darin, Krebsgewebe und Herzinfarktsymptome in medizinischen Scans mit einer Genauigkeit zu erkennen, die mit erfahrenen Ärzten vergleichbar ist. Er findet es rätselhaft, dass assoziatives Lernen oft als grober Mechanismus angesehen wird, der für die Intelligenz von Tieren wie Affen oder Krähen unzureichend ist.

Lind, der Biologe, stimmt dem zu und findet es ironisch, dass assoziative Prozesse, die für den Fortschritt der KI fundamental sind, für die biologische Intelligenz als zu simpel angesehen werden. Er zitiert Suttons und Bartos Arbeit in seiner biologischen Forschung und schlägt vor, dass flexible Verhaltensweisen wie soziales Lernen und Werkzeuggebrauch aus assoziativem Lernen entstehen könnten, anstatt komplexe kognitive Mechanismen zu erfordern.

Obwohl einige sich unwohl fühlen mögen bei einer Wiederbelebung der behavioristischen Theorie, bedeutet die Behauptung, dass Tiere durch Assoziation lernen, nicht, sie als einfältig zu bezeichnen. Wissenschaftler wie Lind und Wasserman erkennen die Rolle von Instinkt und Emotion im Tierverhalten an. Ihr Punkt ist, dass assoziatives Lernen ein weitaus potenterer, sogar „kognitiver“ Mechanismus ist, als viele Kollegen glauben. Wie der Psychologe Robert Rescorla, dessen Arbeit sowohl Wasserman als auch Sutton beeinflusste, vorschlug, ist Assoziation kein „mechanischer Prozess auf niedriger Ebene“, sondern „ein primäres Mittel, mit dem der Organismus die Struktur seiner Welt darstellt“.

Dies gilt selbst für eine Labortaube, die sorgfältig in einer Experimentierbox kontrolliert wird. Das Lernen der Taube geht über die unmittelbare Aufgabe hinaus und baut ein umfassendes Modell ihrer Umgebung und der Beziehungen zwischen ihren Teilen auf. Dieser gemeinsame Mechanismus wirft eine entscheidende Frage auf, die durch den Aufstieg der KI verstärkt wird: Wie schreiben wir anderen Lebewesen Empfindungsfähigkeit zu? Tauben in Drogen-Diskriminierungsaufgaben zeigen beispielsweise die Fähigkeit, interne Zustände zu erleben und zu unterscheiden, was die Frage aufwirft, ob dies „gleichbedeutend mit Introspektion“ ist.

Obwohl KI und Tiere assoziative Mechanismen teilen, gibt es im Leben mehr als Verhalten und Lernen. Eine Taube verdient ethische Überlegung nicht nur dafür, wie sie lernt, sondern auch dafür, was sie fühlt. Eine Taube kann Schmerz und Leid erfahren; ein KI-Chatbot kann das nicht, egal wie überzeugend er Empfindungsfähigkeit simulieren mag. Die erheblichen Investitionen in die KI-Forschung erfordern nun ein ähnliches Engagement für das Verständnis tierischer Kognition und Verhaltens, nicht nur um wahre Empfindungsfähigkeit von überzeugender Leistung zu unterscheiden, sondern auch um tiefere Einblicke in uns selbst zu gewinnen. Schließlich lernen auch Menschen oft durch Assoziation, insbesondere bei komplexen, intuitiven Aufgaben wie einem Sommelier, der Wein-Nuancen erkennt, oder Wassermans Studenten, die sein Kategorisierungsexperiment schließlich meistern – nicht durch Regeln, sondern durch Gefühl. Die bescheidene Labortaube, so stellt sich heraus, ist nicht nur in unseren Computern; ihr Lernmotor ist grundlegend für unser eigenes Gehirn und treibt einige der beeindruckendsten Errungenschaften der Menschheit an.