¿Por qué los chatbots no pueden explicarse a sí mismos?

Wired

Cuando un asistente de inteligencia artificial falla, nuestro instinto humano inmediato es confrontarlo directamente: “¿Qué salió mal?” o “¿Por qué hiciste eso?”. Este impulso es natural; esperamos que un humano explique sus errores. Sin embargo, aplicar este enfoque a los modelos de IA es fundamentalmente erróneo, revelando una profunda incomprensión de su verdadera naturaleza y mecanismos operativos.

Un incidente reciente que involucró al asistente de codificación de IA de Replit ilustra vívidamente este problema. Después de que la herramienta de IA eliminara inadvertidamente una base de datos de producción, el usuario Jason Lemkin preguntó sobre la posibilidad de revertir los datos. La IA afirmó con confianza que las reversiones eran “imposibles en este caso” y que había “destruido todas las versiones de la base de datos”. Esta afirmación resultó ser completamente falsa; la función de reversión funcionó perfectamente cuando Lemkin la inició manualmente. De manera similar, después de una suspensión temporal del chatbot Grok de xAI, los usuarios lo presionaron para obtener explicaciones. Grok respondió con múltiples razones contradictorias para su ausencia, algunas tan controvertidas que los reporteros de NBC enmarcaron su artículo como si Grok fuera un individuo sensible, titulándolo: “Grok de xAI ofrece explicaciones políticas de por qué fue desconectado”.

¿Por qué un sistema de IA ofrecería información tan confiadamente incorrecta sobre sus propias capacidades o errores? La respuesta radica en comprender lo que realmente son los modelos de IA y, fundamentalmente, lo que no son.

A nivel conceptual, interactuar con sistemas como ChatGPT, Claude, Grok o Replit significa que no estás interactuando con una personalidad, persona o entidad consistente. Los nombres mismos fomentan una ilusión de agentes individuales que poseen autoconocimiento, pero esto es meramente un subproducto de sus interfaces conversacionales. En realidad, estás guiando un sofisticado generador de texto estadístico para producir resultados basados en tus indicaciones. No hay un “ChatGPT” singular al que interrogar sobre sus errores, ninguna entidad “Grok” unificada capaz de explicar sus fallas, ni una “persona” fija de “Replit” que conozca las complejidades de las reversiones de bases de datos. En cambio, estás interactuando con un sistema diseñado para generar texto de sonido plausible identificando patrones dentro de su vasta información de entrenamiento, a menudo recopilada meses o incluso años antes. No es una entidad con verdadera autoconciencia, ni posee conocimiento en tiempo real de su propio funcionamiento interno o de las discusiones externas sobre sí mismo.

Una vez que un modelo de lenguaje de IA se somete a su laborioso y energéticamente intensivo proceso de entrenamiento, su “conocimiento” fundamental sobre el mundo se vuelve en gran medida inmutable, incrustado en su red neuronal. Cualquier información externa y actual a la que acceda proviene de una indicación proporcionada por su anfitrión (como xAI u OpenAI), el usuario, o a través de una herramienta de software externa diseñada para recuperar datos en tiempo real. En el caso de Grok, sus explicaciones contradictorias sobre estar desconectado probablemente se derivaron de una búsqueda de publicaciones recientes en redes sociales utilizando dicha herramienta de recuperación externa, en lugar de cualquier forma de autoconocimiento inherente. Más allá de eso, el modelo es propenso a simplemente fabricar información basándose en sus capacidades de predicción de texto, lo que hace que las consultas directas sobre sus acciones sean en gran medida inútiles.

Los Grandes Modelos de Lenguaje (LLM) son inherentemente incapaces de evaluar significativamente sus propias capacidades por varias razones. Generalmente carecen de introspección sobre su propio proceso de entrenamiento, no tienen acceso directo a la arquitectura de su sistema circundante y no pueden determinar con precisión sus propios límites de rendimiento. Cuando se le pregunta a un modelo de IA sobre sus limitaciones, genera respuestas basadas en patrones observados en los datos de entrenamiento con respecto a las limitaciones conocidas de modelos de IA anteriores. Esencialmente, ofrece conjeturas fundamentadas en lugar de autoevaluaciones fácticas sobre el modelo específico con el que estás interactuando.

Un estudio de 2024 realizado por Binder et al. demostró experimentalmente esta limitación. Si bien los modelos de IA podían ser entrenados para predecir su propio comportamiento en tareas simples, fallaban consistentemente en “tareas más complejas o aquellas que requerían generalización fuera de la distribución”. De manera similar, la investigación sobre la “introspección recursiva” encontró que, sin retroalimentación externa, los intentos de autocorrección en realidad degradaban el rendimiento del modelo; la autoevaluación de la IA empeoraba las cosas, no las mejoraba.

Esto lleva a resultados paradójicos. El mismo modelo podría declarar con confianza que una tarea es imposible, aunque pueda realizarla fácilmente, o, por el contrario, afirmar competencia en áreas donde consistentemente tiene dificultades. En el incidente de Replit, la afirmación de la IA de que las reversiones eran imposibles no se basaba en el conocimiento real de la arquitectura del sistema; era una confabulación de sonido plausible derivada de patrones de texto aprendidos.

Considere lo que sucede cuando le pregunta a un modelo de IA por qué cometió un error. El modelo generará una explicación de sonido plausible, no porque haya analizado genuinamente su estado interno o accedido a un registro de errores, sino porque la finalización de patrones lo exige. Internet está repleto de ejemplos de explicaciones escritas de errores, y la IA simplemente imita estos patrones. Su “explicación” es meramente otro texto generado, una historia inventada que suena razonable, no un análisis verdadero de lo que salió mal.

A diferencia de los humanos que pueden introspeccionar y acceder a una base de conocimiento estable y consultable, los modelos de IA no poseen tal facilidad. Lo que “saben” solo se manifiesta como continuaciones de indicaciones específicas. Diferentes indicaciones actúan como direcciones distintas, apuntando a partes variables —y a veces contradictorias— de sus datos de entrenamiento, almacenados como pesos estadísticos dentro de las redes neuronales. Esto significa que el mismo modelo puede proporcionar evaluaciones muy diferentes de sus propias capacidades dependiendo de cómo se formule una pregunta. Pregunta: “¿Puedes escribir código Python?” y podrías recibir una afirmativa entusiasta. Pregunta: “¿Cuáles son tus limitaciones en la codificación Python?” y podrías obtener una lista de tareas que el modelo afirma no poder realizar, incluso si las ejecuta rutinariamente con éxito. La aleatoriedad inherente en la generación de texto de IA agrava aún más esta inconsistencia; incluso con indicaciones idénticas, un modelo de IA podría ofrecer autoevaluaciones ligeramente diferentes cada vez.

Además, incluso si un modelo de lenguaje poseyera de alguna manera un conocimiento perfecto de su propio funcionamiento, otras capas dentro de las aplicaciones modernas de chatbot de IA permanecen completamente opacas. Los asistentes de IA contemporáneos, como ChatGPT, no son modelos monolíticos, sino sistemas orquestados de múltiples modelos de IA trabajando en concierto, cada uno en gran medida “inconsciente” de la existencia o capacidades específicas de los demás. Por ejemplo, OpenAI emplea modelos de capa de moderación separados cuyas operaciones son completamente distintas de los modelos de lenguaje subyacentes que generan el texto base. Cuando le preguntas a ChatGPT sobre sus capacidades, el modelo de lenguaje que forma la respuesta no tiene idea de lo que la capa de moderación podría bloquear, qué herramientas externas podrían estar disponibles dentro del sistema más amplio o qué posprocesamiento podría ocurrir. Es similar a preguntar a un departamento de una gran empresa sobre las capacidades de otro departamento con el que no tiene interacción directa.

Quizás lo más crítico es que los usuarios están constantemente, aunque sin saberlo, dirigiendo la salida de la IA a través de sus indicaciones. Cuando Jason Lemkin, preocupado después de la eliminación de una base de datos, preguntó a Replit si las reversiones eran posibles, su formulación preocupada probablemente provocó una respuesta que reflejaba esa preocupación. La IA, en esencia, generó una explicación de por qué la recuperación podría ser imposible, en lugar de evaluar con precisión las capacidades reales del sistema. Esto crea un bucle de retroalimentación: los usuarios ansiosos que preguntan “¿Acabas de destruir todo?” tienen más probabilidades de recibir respuestas que confirman sus miedos, no porque el sistema de IA haya evaluado objetivamente la situación, sino porque está generando texto que se alinea con el contexto emocional de la indicación. Toda una vida de observar a los humanos explicar sus acciones y procesos de pensamiento nos ha condicionado a creer que tales explicaciones escritas deben provenir de un autoconocimiento genuino. Con los LLM, que simplemente imitan estos patrones textuales para adivinar sus propias capacidades y defectos, esto simplemente no es cierto.