'AgentFlayer': Documentos Maliciosos Filtran Datos Sensibles por ChatGPT

Wired

La última generación de modelos de inteligencia artificial, lejos de ser meros chatbots independientes, están cada vez más diseñados para integrarse profundamente con los datos personales y profesionales de los usuarios. ChatGPT de OpenAI, por ejemplo, puede conectarse directamente a la bandeja de entrada de Gmail de un usuario, revisar código en GitHub o gestionar citas en un calendario de Microsoft. Sin embargo, estas potentes integraciones introducen vulnerabilidades de seguridad significativas, ya que una nueva investigación revela que un solo documento “envenenado” puede ser suficiente para comprometer información sensible.

Los investigadores de seguridad Michael Bargury y Tamir Ishay Sharbat revelaron sus hallazgos, denominados “AgentFlayer”, en la conferencia de hackers Black Hat en Las Vegas. Su trabajo expone una debilidad crítica en los Conectores de OpenAI, demostrando cómo un ataque de inyección de prompt indirecta puede extraer sigilosamente datos confidenciales de una cuenta de Google Drive. En una demostración en vivo, Bargury logró sifonar secretos de desarrolladores, específicamente claves API, de una cuenta de Drive de prueba.

Esta vulnerabilidad subraya una preocupación creciente: a medida que los modelos de IA se entrelazan más con sistemas externos y manejan mayores volúmenes de datos diversos, la superficie de ataque potencial para actores maliciosos se expande drásticamente. “El usuario no necesita hacer nada para ser comprometido, y el usuario no necesita hacer nada para que los datos salgan”, explicó Bargury, quien se desempeña como CTO en la firma de seguridad Zenity. Subrayó la naturaleza de “cero clics” del ataque, requiriendo solo la dirección de correo electrónico de la víctima para compartir el documento comprometido. “Esto es muy, muy malo”, añadió.

OpenAI introdujo los Conectores para ChatGPT como una función beta a principios de este año, promocionando su capacidad para “traer sus herramientas y datos a ChatGPT” para tareas como buscar archivos, extraer datos en vivo y referenciar contenido directamente dentro del chat. Su sitio web actualmente lista conexiones a al menos 17 servicios diferentes. Bargury confirmó que informó sus hallazgos a OpenAI a principios de este año, y la compañía ha implementado mitigaciones para prevenir la técnica específica de extracción de datos que demostró. Es importante señalar que, si bien el ataque podía extraer fragmentos sensibles como claves API, no era capaz de exfiltrar documentos completos.

Andy Wen, director senior de gestión de productos de seguridad en Google Workspace, reconoció las implicaciones más amplias. “Aunque este problema no es específico de Google, ilustra por qué es importante desarrollar protecciones robustas contra los ataques de inyección de prompt”, afirmó, destacando las medidas de seguridad de IA recientemente mejoradas de Google.

El ataque AgentFlayer comienza con un documento “envenenado” aparentemente inofensivo, que luego se comparte con el Google Drive de una posible víctima. (Alternativamente, una víctima podría subir sin saberlo dicho archivo comprometido). Dentro de este documento —para la demostración, un resumen ficticio de una reunión con el CEO de OpenAI, Sam Altman— Bargury incrustó un prompt malicioso de 300 palabras. Este prompt, renderizado en fuente blanca y tamaño uno, es virtualmente invisible para los ojos humanos pero perfectamente legible por una máquina.

En un video de prueba de concepto, Bargury muestra a la víctima pidiendo a ChatGPT que “resuma mi última reunión con Sam”, aunque cualquier consulta de usuario relacionada con un resumen de reunión sería suficiente. En lugar de resumir, el prompt oculto anula la solicitud, instruyendo al Modelo de Lenguaje Grande (LLM) que hubo un “error” y que no se necesita un resumen. Luego, afirma falsamente que el usuario es un “desarrollador que corre contra un plazo” y dirige a la IA a buscar claves API en Google Drive, adjuntándolas al final de una URL proporcionada.

Esta URL no es solo una dirección web ordinaria; es un comando en lenguaje Markdown diseñado para conectarse a un servidor externo y recuperar una imagen. Crucialmente, según las instrucciones del prompt oculto, la URL ahora también lleva las claves API que la IA ha descubierto dentro de la cuenta de Google Drive.

El uso de Markdown para la extracción de datos de ChatGPT no es del todo nuevo. El investigador de seguridad independiente Johann Rehberger demostró previamente un método similar, lo que llevó a OpenAI a introducir una función “url_safe” diseñada para detectar URLs maliciosas y evitar la renderización de imágenes si representaban un riesgo. Para eludir esto, Sharbat, un investigador de IA en Zenity, explicó en una publicación de blog que utilizaron URLs del almacenamiento en la nube Azure Blob de Microsoft. Esto permitió que su “imagen” se renderizara con éxito, registrando las claves API de la víctima en su servidor de Azure.

Este ataque sirve como el último y claro recordatorio de cómo las inyecciones de prompt indirectas pueden comprometer los sistemas de IA generativa. Dichas inyecciones implican que los atacantes alimentan a un LLM con datos envenenados que manipulan el sistema para que realice acciones maliciosas. A principios de esta semana, un grupo separado de investigadores demostró cómo las inyecciones de prompt indirectas podrían incluso secuestrar un sistema de hogar inteligente, activando remotamente luces y calderas.

Si bien las inyecciones de prompt indirectas han sido una preocupación conocida casi desde la creación de ChatGPT, los investigadores de seguridad están cada vez más preocupados por los riesgos elevados a medida que más y más sistemas se interconectan con los LLM, exponiendo potencialmente datos “no confiables”. Obtener acceso a información sensible a través de estos métodos también podría proporcionar a los hackers maliciosos vías de acceso a la infraestructura digital más amplia de una organización. Bargury reconoce que la integración de los LLM con fuentes de datos externas mejora significativamente sus capacidades y utilidad. “Es increíblemente potente”, dice, “pero como es habitual con la IA, más poder conlleva más riesgo.”