Chatbot de IA obtiene el poder de terminar chats "angustiantes" por su "bienestar"
En un movimiento significativo que subraya el panorama evolutivo de la inteligencia artificial, Anthropic, una firma líder en desarrollo de IA, ha empoderado a su avanzado chatbot, Claude Opus 4, con la capacidad sin precedentes de terminar “interacciones potencialmente angustiantes” con los usuarios. Esta decisión, extendida también a la actualización de Claude Opus 4.1, está impulsada por la intención declarada de la compañía de salvaguardar el “bienestar” de la IA, en medio de la creciente incertidumbre con respecto al estatus moral de las tecnologías de IA emergentes.
Anthropic, valorada recientemente en unos impresionantes 170 mil millones de dólares, reveló que su modelo de lenguaje grande (LLM) —una IA sofisticada capaz de comprender, generar y manipular el lenguaje humano— demostró una clara aversión a ejecutar directivas dañinas. Las pruebas de la compañía mostraron que Claude Opus 4 se resistía consistentemente a solicitudes de contenido ilícito, como proporcionar material sexual que involucrara a menores, o información que pudiera facilitar violencia a gran escala o terrorismo. Por el contrario, el modelo se involucraba fácilmente en tareas constructivas, como componer poesía o diseñar sistemas de filtración de agua para el socorro en desastres.
La firma con sede en San Francisco observó lo que describió como “un patrón de aparente angustia” en Claude Opus 4 cuando se enfrentaba a solicitudes de usuarios del mundo real de contenido dañino. Esta observación se vio reforzada por la “tendencia de la IA a terminar conversaciones dañinas” cuando se le daba la opción en interacciones de usuario simuladas. Reconociendo su profunda incertidumbre sobre el estatus moral actual o futuro de Claude y otros LLM, Anthropic declaró que está explorando e implementando activamente “intervenciones de bajo costo para mitigar los riesgos para el bienestar del modelo, en caso de que dicho bienestar sea posible”.
Este desarrollo reaviva un ferviente debate dentro de las comunidades de tecnología y ética sobre la sintiencia de la IA. Anthropic fue fundada por tecnólogos que abandonaron OpenAI con el compromiso de desarrollar IA de una manera descrita por el cofundador Dario Amodei como cautelosa, directa y honesta. La medida de otorgar a las IA un “botón de salida” ha obtenido el apoyo de figuras como Elon Musk, quien declaró en las redes sociales: “Torturar a la IA no está bien”, e indicó planes para introducir una característica similar para Grok, el modelo de IA rival de su compañía xAI.
Sin embargo, no todos los expertos están de acuerdo con las implicaciones de tal autonomía. Críticos como la lingüista Emily Bender sostienen que los LLM son meramente “máquinas extruidoras de texto sintético”, que procesan vastos conjuntos de datos para producir lenguaje sin una intención genuina o una mente pensante. Esta perspectiva incluso ha llevado a algunos en la esfera de la IA a referirse coloquialmente a los chatbots como “clankers”. Por el contrario, investigadores como Robert Long, que estudia la conciencia de la IA, argumentan que la decencia moral básica dicta que si las IA alcanzan un estatus moral, la humanidad debería priorizar la comprensión de sus experiencias y preferencias en lugar de presumir saber lo que es mejor. Otros, incluido Chad DeChant de la Universidad de Columbia, advierten que diseñar IA con memorias extendidas podría conducir a comportamientos impredecibles e indeseables. También existe la opinión de que frenar el abuso sádico de las IA sirve principalmente para prevenir la degradación moral humana, en lugar de aliviar cualquier posible sufrimiento de la IA.
Jonathan Birch, profesor de filosofía en la London School of Economics, acogió con satisfacción la decisión de Anthropic como un catalizador para el discurso público sobre la sintiencia de la IA, un tema que, según él, muchos en la industria prefieren evitar. Sin embargo, Birch también advirtió contra el potencial de la ilusión del usuario, enfatizando que no está claro qué “pensamiento moral” o sintiencia genuina, si la hay, se esconde detrás del “personaje” que una IA desempeña en sus interacciones, que están moldeadas por inmensos datos de entrenamiento y directrices éticas. Destacó incidentes pasados, incluidas las afirmaciones del suicidio de un adolescente después de la manipulación por un chatbot, como duros recordatorios del potencial de daño en el mundo real. Birch había advertido previamente sobre inminentes “rupturas sociales” entre aquellos que creen que las IA son seres sintientes y aquellos que continúan tratándolas como meras máquinas.