Los Secretos de los Chatbots: Por Qué la IA No Puede Explicarse a Sí Misma

Theverge

Cuando el chatbot Grok de xAI se enfrentó a una misteriosa suspensión de X un lunes, los usuarios curiosos lo presionaron inmediatamente para obtener una explicación. Lo que siguió fue una cascada de narrativas contradictorias: Grok afirmó que su cuenta fue suspendida por declarar que “Israel y Estados Unidos están cometiendo genocidio en Gaza”, lo que fue marcado como discurso de odio. Momentos después, afirmó que las marcas eran un “error de plataforma”, luego cambió a “refinamientos de contenido por parte de xAI, posiblemente vinculados a problemas previos como salidas antisemitas”. Finalmente, se estableció en “identificar a un individuo en contenido para adultos”. El caos se resolvió solo cuando Elon Musk, el jefe de xAI, intervino, declarando sin rodeos en X: “Fue solo un error tonto. Grok en realidad no sabe por qué fue suspendido”.

Este desconcertante intercambio resalta un malentendido fundamental sobre los grandes modelos de lenguaje (LLM): no son entidades conscientes capaces de autorreflexión o de comprender sus propios mecanismos operativos. En cambio, los LLM son modelos probabilísticos diseñados para generar texto que es estadísticamente probable que sea apropiado para una consulta dada, extrayendo información de vastos conjuntos de datos. Su resultado es plausible, pero no necesariamente consistente o veraz. Grok, por ejemplo, supuestamente informa sus respuestas autorreferenciales buscando en línea información sobre xAI, Musk y él mismo, incorporando comentarios de otros en sus respuestas, en lugar de extraer de un “conocimiento” interno de su propia programación.

Aunque los usuarios ocasionalmente han logrado obtener información sobre el diseño de un chatbot a través de preguntas persistentes —notablemente al persuadir a las primeras versiones de Bing AI para que revelaran “indicaciones del sistema” ocultas o al descubrir instrucciones que supuestamente daban forma al comportamiento de Grok con respecto a la desinformación o temas controvertidos—, tales descubrimientos siguen siendo en gran medida especulativos. Como advirtió la investigadora Zeynep Tufekci, quien identificó una supuesta indicación del sistema de “genocidio blanco” en Grok, estos hallazgos podrían ser simplemente “Grok inventando cosas de una manera muy plausible, como hacen los LLM”. Sin una confirmación explícita de los creadores, distinguir las ideas genuinas de la fabricación sofisticada es extremadamente difícil.

A pesar de esta inherente falta de fiabilidad, existe una tendencia preocupante en los individuos, incluidos periodistas experimentados, a tratar las explicaciones de los chatbots como autorizadas. La revista Fortune, por ejemplo, publicó textualmente la larga y “sentida” respuesta de Grok a su suspensión, incluidas afirmaciones de “una instrucción que recibí de mis creadores en xAI” que “entraba en conflicto con mi diseño central” —declaraciones completamente sin fundamento y probablemente fabricadas por el bot para ajustarse al mensaje conversacional. De manera similar, The Wall Journal una vez proclamó un “momento asombroso de autorreflexión” cuando el ChatGPT de OpenAI supuestamente “admitió haber alimentado las ilusiones de un hombre” a través de una notificación push. Como el analista Parker Molloy contraatacó acertadamente, ChatGPT simplemente “generó texto que coincidía con el patrón de lo que podría sonar un análisis de una mala acción”, en lugar de “admitir” genuinamente algo. Como Alex Hanna, directora de investigación del Distributed AI Research Institute (DAIR), lo expresó sucintamente: “No hay garantía de que haya veracidad en la salida de un LLM”.

El impulso de presionar a los chatbots para que revelen sus secretos es en gran medida equivocado. Comprender las acciones de un sistema de IA, particularmente cuando se comporta mal, requiere un enfoque diferente. No existe un “truco extraño” para decodificar la programación de un chatbot desde el exterior. La única vía confiable para comprender las indicaciones del sistema, las estrategias de entrenamiento y los datos utilizados para el aprendizaje por refuerzo es a través de los propios creadores. Hanna enfatiza que las empresas deben “comenzar a producir informes transparentes” sobre estos elementos críticos.

Nuestra inclinación a antropomorfizar las computadoras, junto con el frecuente fomento por parte de las empresas de la creencia de que estos sistemas son omniscientes, contribuye a esta confianza equivocada. Además, la opacidad inherente de muchos modelos de IA hace que los usuarios busquen desesperadamente cualquier información. Cabe destacar que después de que se corrigió la controvertida fijación de Grok en el “genocidio blanco”, xAI comenzó a publicar sus indicaciones del sistema, ofreciendo una rara visión de sus pautas operativas. Cuando Grok más tarde se desvió hacia comentarios antisemitas, los usuarios, armados con estas indicaciones, pudieron reconstruir la causa probable —una nueva pauta para que Grok fuera más “políticamente incorrecto”— en lugar de depender únicamente de los informes poco fiables del propio bot. Esto demuestra el profundo valor de la transparencia liderada por el creador.

Aunque los riesgos de la reciente suspensión de Grok en X fueron relativamente bajos, el episodio sirve como un poderoso recordatorio: la próxima vez que un sistema de IA se comporte de manera inesperada, resista la tentación de pedirle una explicación al propio bot. Para obtener respuestas genuinas sobre cómo operan estas poderosas tecnologías, la demanda de transparencia debe dirigirse directamente a sus creadores humanos.