EE. UU. Ocúlta Informe de Seguridad de IA por Disputas Políticas
El pasado octubre, en una conferencia de seguridad informática en Arlington, Virginia, un grupo selecto de investigadores de IA participó en un ejercicio pionero de “red-teaming”, una rigurosa prueba de estrés diseñada para sondear las vulnerabilidades de los modelos de lenguaje de vanguardia y otros sistemas de inteligencia artificial. Durante dos días intensivos, estos equipos descubrieron 139 nuevos métodos para inducir el mal funcionamiento del sistema, desde la generación de desinformación hasta la fuga inadvertida de datos personales. Crucialmente, sus hallazgos también expusieron deficiencias significativas dentro de un incipiente estándar del gobierno de EE. UU. destinado a guiar a las empresas en la evaluación de sus sistemas de IA.
A pesar de las ideas críticas obtenidas, el Instituto Nacional de Estándares y Tecnología (NIST) nunca publicó el informe completo que detallaba este ejercicio, el cual concluyó hacia finales de la administración Biden. Dicho documento podría haber ofrecido una guía invaluable a las empresas que buscan evaluar sus propias implementaciones de IA. Sin embargo, fuentes familiarizadas con la situación, que hablaron de forma anónima, indicaron que este fue uno de varios documentos relacionados con la IA del NIST que se retuvieron de la publicación, supuestamente por preocupación por un posible conflicto con la administración entrante. Un ex-empleado del NIST comentó sobre la creciente dificultad de publicar artículos, incluso bajo el presidente Biden, trazando paralelismos con controversias pasadas sobre el cambio climático o la investigación del tabaco. Ni el NIST ni el Departamento de Comercio proporcionaron comentarios sobre el asunto.
El telón de fondo político de esta decisión es significativo. Antes de asumir el cargo, el presidente Donald Trump señaló su intención de revertir la orden ejecutiva de Biden sobre IA. Su administración ha redirigido desde entonces a expertos de examinar cuestiones como el sesgo algorítmico o la equidad en los sistemas de IA. El “Plan de Acción de IA”, publicado en julio, exige explícitamente una revisión del Marco de Gestión de Riesgos de IA del NIST, solicitando específicamente la eliminación de las referencias a la desinformación, la Diversidad, la Equidad y la Inclusión (DEI), y el cambio climático. Irónicamente, este mismo plan de acción también aboga precisamente por el tipo de ejercicio que el informe no publicado detallaba, instando a varias agencias, incluido el NIST, a “coordinar una iniciativa de hackathon de IA para solicitar a los mejores y más brillantes de la academia estadounidense que prueben los sistemas de IA en cuanto a transparencia, eficacia, control de uso y vulnerabilidades de seguridad”.
El evento de “red-teaming” en sí fue orquestado a través del programa ARIA (Evaluación de Riesgos e Impactos de la IA) del NIST, en colaboración con Humane Intelligence, una empresa especializada en pruebas de sistemas de IA. Celebrado en la Conferencia sobre Aprendizaje Automático Aplicado en Seguridad de la Información (CAMLIS), el ejercicio vio a los equipos atacar una diversa gama de herramientas avanzadas de IA. Estas incluyeron Llama, el modelo de lenguaje grande de código abierto de Meta; Anote, una plataforma para construir y ajustar modelos de IA; un sistema diseñado para bloquear ataques de IA de Robust Intelligence (ahora adquirida por Cisco); y una plataforma para generar avatares de IA de Synthesia. Representantes de cada una de estas empresas participaron activamente en las pruebas de estrés.
Los participantes tuvieron la tarea de evaluar estas herramientas de IA utilizando el marco NIST AI 600-1, que abarca categorías de riesgo como la generación de desinformación o ataques de ciberseguridad, la fuga de información privada del usuario o detalles críticos del sistema de IA, y el potencial de los usuarios para desarrollar apegos emocionales a las herramientas de IA. Los investigadores idearon con éxito varios métodos para eludir los protocolos de seguridad de los modelos, lo que les permitió generar desinformación, filtrar datos personales e incluso facilitar ataques de ciberseguridad. El informe señaló que, si bien algunos elementos del marco del NIST resultaron útiles, ciertas categorías de riesgo estaban insuficientemente definidas para su aplicación práctica.
Varios individuos involucrados en el ejercicio expresaron su convicción de que la publicación del estudio de “red-teaming” habría beneficiado significativamente a la comunidad de IA en general. Alice Qian Zhang, estudiante de doctorado en la Universidad Carnegie Mellon que participó, comentó que la publicación del informe habría proporcionado información valiosa sobre cómo el marco de riesgo del NIST puede y no puede aplicarse en un contexto de “red-teaming”. Valoró particularmente la oportunidad de interactuar directamente con los desarrolladores de herramientas durante el proceso de prueba. Otro participante anónimo reveló que el ejercicio descubrió formas notablemente efectivas de incitar a Llama a proporcionar información sobre cómo unirse a grupos terroristas, específicamente utilizando indicaciones escritas en ruso, gujarati, marathi y telugu. Este individuo especuló que la decisión de suprimir el informe podría ser parte de un cambio más amplio para alejarse de temas considerados relacionados con la diversidad, la equidad y la inclusión (DEI) antes del segundo mandato de Trump. Otros sugirieron que el informe pudo haber sido marginado en medio de un enfoque creciente en el riesgo de que los modelos de IA se utilicen para desarrollar armas químicas, biológicas o nucleares, y a medida que el gobierno de EE. UU. buscaba lazos más estrechos con las principales empresas tecnológicas. Como concluyó un “red teamer” anónimo: “Al final del día, la política debe haber estado involucrada. Sentimos que el ejercicio habría proporcionado muchas ideas científicas, y todavía lo sentimos así.”