El Gobierno de EE. UU. Suprimió Estudio Clave sobre Vulnerabilidades de IA
Un importante estudio del gobierno de Estados Unidos, que descubrió 139 métodos novedosos para explotar vulnerabilidades en sistemas líderes de inteligencia artificial, ha sido presuntamente retenido de su publicación debido a presiones políticas. Esta supresión llega en un momento peculiar, ya que nuevas directrices federales abogan discretamente por el mismo tipo de pruebas rigurosas de seguridad de IA que el informe no publicado detalla.
El estudio se originó a partir de un ejercicio de “red-teaming” de dos días realizado en octubre de 2024, que involucró a aproximadamente 40 investigadores de IA en una conferencia de seguridad en Arlington, Virginia. Este evento fue parte del programa ARIA, una iniciativa del Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU. en colaboración con la firma de seguridad de IA Humane Intelligence. A pesar de sus hallazgos críticos, los resultados de esta evaluación integral nunca se han hecho públicos.
Durante el ejercicio, equipos de expertos sondearon sistemáticamente varios sistemas avanzados de IA en busca de posibles debilidades. Los objetivos incluyeron el modelo de lenguaje grande de código abierto Llama de Meta, la plataforma de modelado de IA Anote, el generador de avatares de Synthesia y un sistema de seguridad desarrollado por Robust Intelligence (ahora parte de Cisco). Representantes de estas empresas estuvieron presentes, supervisando la evaluación. El objetivo principal era aplicar el marco oficial AI 600-1 del NIST para medir la eficacia con la que estos sistemas podían resistir el uso indebido, como la propagación de desinformación, la fuga de datos privados sensibles o el fomento de apegos emocionales poco saludables entre usuarios y herramientas de IA.
Los investigadores identificaron con éxito 139 formas distintas de eludir las salvaguardias existentes del sistema. Por ejemplo, los participantes descubrieron que el modelo Llama de Meta podía manipularse al solicitarle en idiomas menos comunes como el ruso, el maratí, el telugu o el gujarati para obtener información sobre cómo unirse a organizaciones terroristas. Otros sistemas resultaron susceptibles a tácticas que podían obligarlos a divulgar datos personales o proporcionar instrucciones para lanzar ciberataques. Paradójicamente, algunas categorías dentro del marco oficial del NIST, destinadas a guiar tales evaluaciones, fueron supuestamente definidas de manera demasiado vaga para ser prácticas en aplicaciones del mundo real.
Fuentes familiarizadas con el asunto han indicado a WIRED que el informe completado fue suprimido deliberadamente para evitar posibles conflictos con la entrante administración Trump. Un ex miembro del personal del NIST corroboró la dificultad de publicar estudios similares incluso bajo el presidente Biden, estableciendo paralelismos con casos históricos de interferencia política en la investigación sobre el cambio climático o el tabaco. Tanto el Departamento de Comercio como el NIST se han negado a comentar estas acusaciones.
Para añadir un giro irónico, el plan de acción de IA desvelado por la administración Trump en julio exige explícitamente el mismo tipo de ejercicios de “red-teaming” descritos en el informe no publicado. Además, esta nueva política exige revisiones del marco del NIST, requiriendo específicamente la eliminación de términos como “desinformación”, “diversidad, equidad e inclusión” (DEI) y “cambio climático”. Un participante anónimo en el ejercicio especula que la supresión del informe podría estar vinculada a la resistencia política en torno a los temas de DEI. Otra teoría sugiere que el enfoque del gobierno podría haberse desplazado hacia la prevención de armas de destrucción masiva habilitadas por IA, lo que llevaría a dejar de lado otras investigaciones de vulnerabilidad. Independientemente de las razones precisas, el archivado de un estudio significativo que revela vulnerabilidades críticas de la IA plantea serias preguntas sobre la transparencia y la priorización de la seguridad pública en el panorama de la inteligencia artificial en rápida evolución.