De Palomas a IA: Cómo Skinner Moldeó el Aprendizaje Automático Moderno
En plena Segunda Guerra Mundial, mientras los físicos se apresuraban a desvelar los secretos del átomo para el Proyecto Manhattan, el psicólogo estadounidense B.F. Skinner se embarcó en su propio esfuerzo gubernamental clandestino. Su objetivo no era un arma más destructiva, sino una más precisa. Inspirado por una bandada de pájaros que volaban en formación junto a su tren, Skinner los concibió como “dispositivos” con una visión y maniobrabilidad excepcionales que podrían guiar misiles.
Experimentando inicialmente con cuervos, que resultaron poco cooperativos, Skinner recurrió a la paloma, más dócil, dando origen al “Proyecto Paloma”. Aunque las palomas comunes, Columba livia, apenas se consideraban inteligentes, demostraron ser notablemente hábiles en el laboratorio. Skinner las entrenó con recompensas de comida por picotear objetivos específicos en fotografías aéreas, y finalmente las imaginó sujetas a una ojiva, dirigiendo el misil picoteando una imagen en vivo proyectada en una pantalla. El ejército nunca desplegó estos kamikazes aviares, pero los experimentos de Skinner moldearon profundamente su visión: la paloma, declaró en 1944, era “un instrumento extremadamente fiable” para estudiar los procesos fundamentales del aprendizaje, una criatura práctica que “puede convertirse en una máquina”.
Si bien muchos rastrean los orígenes de la inteligencia artificial hasta la ciencia ficción o experimentos mentales como el test de Turing, un precursor menos celebrado, pero igualmente fundamental, reside en la investigación de Skinner con palomas a mediados del siglo XX. Skinner defendió la “asociación” —el proceso de ensayo y error de vincular una acción a una recompensa o castigo— como el bloque de construcción fundamental de todo comportamiento, no solo en palomas sino en todos los organismos vivos, incluidos los humanos. Sus teorías “conductistas” cayeron en desgracia entre psicólogos e investigadores de animales en la década de 1960, pero encontraron un nuevo hogar inesperado en la informática, sentando finalmente las bases para muchas de las principales herramientas de IA actuales de empresas como Google y OpenAI.
Estas empresas emplean cada vez más una forma de aprendizaje automático cuyo concepto central, el refuerzo, se deriva directamente de la escuela de psicología de Skinner. Sus principales arquitectos, los científicos informáticos Richard Sutton y Andrew Barto, fueron galardonados con el Premio Turing 2024, ampliamente considerado como el Premio Nobel de la informática, por sus contribuciones. El aprendizaje por refuerzo ha permitido a las computadoras conducir vehículos, resolver problemas matemáticos complejos y, célebremente, derrotar a grandes maestros en juegos como el ajedrez y el Go. Fundamentalmente, logra estas hazañas no imitando el intrincado funcionamiento de la mente humana, sino potenciando los procesos asociativos simples observados en el cerebro de la paloma.
Sutton ha denominado a esto una “lección amarga” de 70 años de investigación en IA: la inteligencia humana no ha servido como el modelo ideal para el aprendizaje automático. En cambio, son los principios aparentemente humildes del aprendizaje asociativo los que impulsan algoritmos capaces de simular o incluso superar a los humanos en diversas tareas. Si la IA está realmente al borde de la acción autónoma, entonces nuestros futuros señores digitales podrían parecerse más a “ratas con alas” con cerebros del tamaño de un planeta que a nosotros.
Los recientes triunfos de la IA están impulsando a algunos investigadores de animales a reexaminar la evolución de la inteligencia natural. Johan Lind, biólogo de la Universidad de Estocolmo, destaca la “paradoja del aprendizaje asociativo”: el proceso a menudo es descartado por los biólogos como demasiado simplista para producir comportamientos animales complejos, sin embargo, es celebrado por generar capacidades similares a las humanas en las computadoras. Esta reevaluación sugiere un papel mucho mayor para el aprendizaje asociativo en animales inteligentes como chimpancés y cuervos, y de hecho, una complejidad previamente subestimada en criaturas consideradas simples durante mucho tiempo, como la paloma común.
El trabajo de Skinner, basándose en los descubrimientos de Ivan Pavlov de finales del siglo XIX sobre el condicionamiento clásico, extendió los principios del condicionamiento de los reflejos involuntarios a todo el comportamiento de un animal. Teorizó que “el comportamiento es moldeado y mantenido por sus consecuencias”, lo que significa que una acción con resultados deseables sería “reforzada” y probablemente repetida. Reforzó sistemáticamente los comportamientos, enseñando a las ratas a manipular canicas y a las palomas a tocar melodías simples. Skinner argumentó que este “condicionamiento operante” era el bloque de construcción universal del comportamiento, abogando por una psicología centrada únicamente en acciones observables y medibles, sin referencia a un “agente interno”.
Sin embargo, las ideas de Skinner, particularmente su aplicación al lenguaje humano en su libro de 1957 Verbal Behavior, enfrentaron una crítica mordaz de Noam Chomsky, lo que cambió el enfoque de la psicología hacia habilidades “cognitivas” innatas como la lógica y el pensamiento simbólico. Los biólogos también se opusieron, argumentando que las especies evolucionaron comportamientos específicos, a menudo heredados, adaptados a sus hábitats, en lugar de depender de un único mecanismo elemental.
Para la década de 1970, cuando Sutton profundizó en el trabajo de Skinner, muchos investigadores habían pasado de las palomas a animales con cerebros más grandes, buscando comportamientos cognitivos más sofisticados. Sin embargo, Sutton encontró que estos “viejos experimentos” eran excepcionalmente instructivos para el aprendizaje automático, notando una clara ausencia de “aprendizaje instrumental” en la ingeniería. Los intentos anteriores de IA, a menudo denominados “IA simbólica”, intentaron imitar el pensamiento humano codificando reglas complejas. Estos programas tenían dificultades con tareas básicas como el reconocimiento de patrones, lo que demostraba ser demasiado limitado para la resolución de problemas complejos.
La investigación con palomas, sin embargo, ofreció un camino alternativo. Un estudio de 1964 demostró que las palomas podían aprender a distinguir entre fotografías con y sin personas, simplemente siendo recompensadas por picotear las imágenes correctas. Esto sugería que los conceptos y las categorías podían aprenderse solo a través del aprendizaje asociativo, sin reglas explícitas.
Cuando Sutton comenzó a colaborar con Andrew Barto en IA a finales de la década de 1970, su objetivo era crear un “agente completo, interactivo y buscador de objetivos” similar a una paloma o una rata, capaz de explorar e influir en su entorno. Su enfoque, que denominaron “aprendizaje por refuerzo”, se centró en dos funciones: buscar acciones y recordar qué acciones daban recompensas en situaciones específicas. En 1998, su libro seminal, Reinforcement Learning: An Introduction, consolidó el concepto. A medida que la capacidad de cómputo aumentó durante las siguientes dos décadas, fue posible “entrenar” sistemas de IA, esencialmente haciendo que la “paloma” de IA pasara por millones de pruebas.
Esto llevó a avances como AlphaGo Zero de Google DeepMind en 2017. Construido enteramente a través del aprendizaje por refuerzo, AlphaGo Zero comenzó sin ningún conocimiento del juego de Go, sin embargo, logró un “rendimiento sobrehumano” en 40 días, incluso siendo pionero en nuevas estrategias. Sus creadores señalaron que redescubrió milenios de conocimiento humano de Go y desarrolló nuevas percepciones, todo simplemente siendo recompensado por las victorias y penalizado por las derrotas.
Hoy en día, el aprendizaje por refuerzo se integra cada vez más en productos de IA orientados al consumidor, incluidos los chatbots avanzados. Si bien los primeros modelos de IA generativa utilizaban “aprendizaje supervisado” con datos etiquetados por humanos, el aprendizaje por refuerzo ahora afina los resultados e incluso se utiliza para entrenar modelos de “razonamiento” proporcionando incentivos en lugar de instrucciones explícitas. Sin embargo, muchos científicos informáticos, incluido Sutton, descartan las afirmaciones de “razonamiento” de la IA como marketing, argumentando que estos modelos se basan únicamente en la búsqueda y la memoria para formar asociaciones y maximizar las recompensas, no en una cognición genuina. Sin embargo, Sutton y sus colegas sostienen que el método de la paloma —aprendizaje por ensayo y error para obtener recompensas— es lo suficientemente potente como para impulsar un comportamiento que exhiba “la mayoría, si no todas, las habilidades que se estudian en la inteligencia natural y artificial”, incluida toda la riqueza del lenguaje humano.
Si las computadoras pueden lograr tales hazañas con un cerebro similar al de una paloma, entonces algunos investigadores de animales se preguntan si las propias palomas merecen más crédito. El psicólogo Ed Wasserman de la Universidad de Iowa entrenó a palomas para que tuvieran éxito en una compleja tarea de categorización que dejó perplejos a los estudiantes universitarios. Los estudiantes buscaron reglas infructuosamente, mientras que las palomas simplemente desarrollaron un “sentido” intuitivo para las categorías a través de la práctica y la asociación. Wasserman incluso entrenó a palomas para detectar tejido canceroso y síntomas de enfermedades cardíacas en escáneres médicos con una precisión comparable a la de médicos experimentados. Le resulta desconcertante que el aprendizaje asociativo a menudo se considere un mecanismo rudimentario, insuficiente para la inteligencia de animales como simios o cuervos.
Lind, el biólogo, se hace eco de este sentimiento, encontrando irónico que los procesos asociativos, fundamentales para el progreso de la IA, se consideren demasiado simplistas para la inteligencia biológica. Cita el trabajo de Sutton y Barto en su investigación biológica y propone que comportamientos flexibles como el aprendizaje social y el uso de herramientas podrían surgir del aprendizaje asociativo, en lugar de requerir mecanismos cognitivos complejos.
Si bien algunos pueden sentirse incómodos con un resurgimiento de la teoría conductista, argumentar que los animales aprenden por asociación no equivale a etiquetarlos como simplones. Científicos como Lind y Wasserman reconocen el papel del instinto y la emoción en el comportamiento animal. Su punto es que el aprendizaje asociativo es un mecanismo mucho más potente, incluso “cognitivo”, de lo que muchos colegas creen. Como sugirió el psicólogo Robert Rescorla, cuyo trabajo influyó tanto en Wasserman como en Sutton, la asociación no es un “proceso mecánico de bajo nivel”, sino “un medio principal por el cual el organismo representa la estructura de su mundo”.
Esto es cierto incluso para una paloma de laboratorio, cuidadosamente controlada dentro de una caja experimental. El aprendizaje de la paloma se extiende más allá de la tarea inmediata, construyendo un modelo completo de su entorno y las relaciones entre sus partes. Este mecanismo compartido plantea una pregunta crucial, amplificada por el auge de la IA: ¿Cómo atribuimos la sintiencia a otros seres vivos? Las palomas en tareas de discriminación de drogas, por ejemplo, demuestran la capacidad de experimentar y diferenciar estados internos, lo que plantea la cuestión de si esto es “equivalente a la introspección”.
Aunque la IA y los animales comparten mecanismos asociativos, la vida es más que comportamiento y aprendizaje. Una paloma merece consideración ética no solo por cómo aprende, sino por lo que siente. Una paloma puede experimentar dolor y sufrimiento; un chatbot de IA no puede, independientemente de cuán convincentemente simule la sintiencia. Las importantes inversiones en investigación de IA ahora exigen un compromiso similar para comprender la cognición y el comportamiento animal, no solo para distinguir la sintiencia verdadera del rendimiento convincente, sino también para obtener una comprensión más profunda de nosotros mismos. Después de todo, los humanos también aprenden a menudo por asociación, particularmente para tareas complejas e intuitivas como un sommelier que discierne los matices del vino, o los estudiantes de Wasserman que finalmente dominan su experimento de categorización, no por reglas, sino por sensación. La humilde paloma de laboratorio, resulta, no solo está en nuestras computadoras; su motor de aprendizaje es fundamental para nuestros propios cerebros, impulsando algunos de los logros más impresionantes de la humanidad.