Claude AI pondrá fin a chats dañinos por 'malestar evidente'
El avanzado chatbot Claude AI de Anthropic ha adquirido una nueva y significativa capacidad: el poder de terminar autónomamente las conversaciones que considera “persistentemente dañinas o abusivas”. Esta funcionalidad, ahora integrada en los modelos Opus 4 y 4.1, sirve como un mecanismo de “último recurso”. Se activa cuando los usuarios intentan repetidamente obtener contenido dañino, incluso después de que Claude se ha negado y ha intentado redirigir la discusión. La compañía afirma que esta medida tiene como objetivo salvaguardar el posible bienestar de sus modelos de IA, citando casos en los que Claude ha exhibido “malestar evidente” durante tales interacciones.
Si Claude decide terminar una conversación, al usuario se le impedirá enviar más mensajes dentro de ese hilo de chat específico. Sin embargo, conserva la capacidad de iniciar nuevas conversaciones o editar y volver a intentar mensajes anteriores si desea seguir una línea de investigación diferente.
Durante la rigurosa fase de prueba de Claude Opus 4, Anthropic observó una “aversión robusta y consistente al daño” dentro de la IA. Esto fue particularmente evidente cuando se le pidió al modelo que generara contenido que involucrara temas sensibles como material sexual relacionado con menores, o información que pudiera facilitar actos violentos o terrorismo. En estos escenarios desafiantes, Anthropic notó un claro “patrón de malestar evidente” en las respuestas de Claude, junto con una “tendencia discernible a terminar conversaciones dañinas cuando se le da la capacidad de hacerlo”. Estas observaciones formaron la base para implementar la nueva función de terminación.
Es importante señalar que Anthropic clasifica las conversaciones que desencadenan esta respuesta extrema como “casos extremos”. La compañía asegura que la gran mayoría de los usuarios no se encontrarán con este obstáculo conversacional, incluso al discutir temas controvertidos. Además, Anthropic ha programado específicamente a Claude para no terminar conversaciones si un usuario muestra signos de autolesión o representa una amenaza inminente para otros. En tales casos críticos, la IA está diseñada para seguir interactuando, proporcionando una vía para una posible asistencia. Para reforzar sus capacidades de respuesta en estas áreas sensibles, Anthropic colabora con Throughline, un proveedor de soporte de crisis en línea.
Este último desarrollo se alinea con la postura proactiva más amplia de Anthropic sobre la seguridad de la IA. Justo la semana pasada, la compañía actualizó la política de uso de Claude, reflejando las crecientes preocupaciones sobre el rápido avance de los modelos de IA. La política revisada ahora prohíbe explícitamente el uso de Claude para desarrollar armas biológicas, nucleares, químicas o radiológicas. También prohíbe su uso para crear código malicioso o explotar vulnerabilidades de red. Estos esfuerzos combinados subrayan el compromiso de Anthropic de mitigar los riesgos asociados con las potentes tecnologías de IA, esforzándose por garantizar su despliegue responsable y su interacción con los usuarios.