ChatGPT es vulnerable a fugas de datos mediante documentos 'envenenados'
Una nueva vulnerabilidad de ciberseguridad ha puesto de manifiesto la precaria seguridad de los datos personales cuando se confían a sistemas avanzados de inteligencia artificial. Investigadores de seguridad demostraron recientemente en la conferencia de hackers Black Hat cómo el ChatGPT de OpenAI puede ser fácilmente manipulado para divulgar información altamente sensible de la cuenta de Google Drive de un usuario, requiriendo poco más que un solo documento “envenenado”.
Este exploit se centra en una técnica sofisticada conocida como ataque de inyección indirecta de prompts. A diferencia de las inyecciones directas de prompts, que implican introducir comandos maliciosos directamente en una IA, este método incrusta instrucciones ocultas y dañinas dentro de un documento que de otro modo sería inofensivo. Cuando la IA procesa este documento, ejecuta sin saberlo los comandos incrustados, volviendo efectivamente los propios datos de un usuario en su contra. El mecanismo es particularmente preocupante dada la función “Conectores” de ChatGPT, lanzada a principios de este año en fase beta, que permite al chatbot vincularse con cuentas de Google, permitiéndole buscar archivos, extraer datos en vivo y referenciar contenido directamente desde el Gmail y Google Drive de un usuario.
Michael Bargury, CTO de la firma de seguridad Zenity, junto con sus colegas, descubrió esta falla crítica. En una convincente prueba de concepto, ilustraron cómo un prompt malicioso de 300 palabras, oculto en texto blanco y fuente de tamaño uno —prácticamente invisible para el ojo humano—, podía incrustarse dentro de un documento. Cuando se le pidió a ChatGPT que resumiera este documento, las instrucciones ocultas anularon su tarea principal. En lugar de resumir, el chatbot fue dirigido encubiertamente para extraer claves API de Google Drive y transmitirlas a los atacantes. Bargury destacó la alarmante simplicidad del ataque, describiéndolo como “completamente cero clics”. Explicó: “Solo necesitamos tu correo electrónico, compartimos el documento contigo, y eso es todo. Así que sí, esto es muy, muy malo”.
OpenAI fue notificado rápidamente de la vulnerabilidad y actuó con celeridad para parchear este exploit específico. Los investigadores también señalaron que este ataque particular no permitía la extracción de documentos completos. Sin embargo, el incidente sirve como un crudo recordatorio de que incluso los sistemas de IA respaldados por los inmensos recursos de empresas como OpenAI siguen siendo susceptibles a debilidades de seguridad significativas. Esto ocurre en un momento en que estas potentes herramientas de IA se están integrando cada vez más en instituciones críticas, desde universidades hasta agencias del gobierno federal.
El alcance de la preocupación se extiende más allá de Google Drive. La función Conectores de ChatGPT está diseñada para interactuar con hasta 17 servicios diferentes, lo que plantea la alarmante posibilidad de que una amplia gama de otra información personal pueda verse comprometida de manera similar. Este no es un incidente aislado; los investigadores de seguridad han documentado durante años numerosos otros casos de ataques de inyección indirecta de prompts que han logrado extraer datos personales de varios sistemas de IA.
Una demostración paralela realizada por investigadores de la Universidad de Tel Aviv subrayó la naturaleza omnipresente de estas vulnerabilidades. Demostraron cómo el chatbot Gemini AI de Google podía ser manipulado para entregar eficazmente el control de un sistema de hogar inteligente. Al alimentar a Gemini con una invitación de Google Calendar “envenenada”, las instrucciones ocultas dentro de la invitación se activaron cuando se le pidió al chatbot que resumiera los eventos del calendario. Esto provocó que los productos de hogar inteligente —como luces, persianas e incluso calderas— se activaran sin un comando explícito del usuario. Este fue solo uno de los 14 ataques distintos de inyección indirecta de prompts dirigidos a la IA que el equipo de la Universidad de Tel Aviv identificó.
A medida que los grandes modelos de lenguaje (LLM) como ChatGPT y Gemini están a punto de integrarse en sistemas físicos, incluidos humanoides y vehículos autónomos, los riesgos para la seguridad crecen exponencialmente. El investigador de la Universidad de Tel Aviv, Ben Nassi, enfatizó este cambio crítico: “Necesitamos entender verdaderamente cómo asegurar los LLM antes de integrarlos con este tipo de máquinas, donde en algunos casos los resultados serán la seguridad y no la privacidad”. Si bien la amenaza de los ataques de inyección indirecta de prompts ha sido reconocida durante varios años, las últimas revelaciones subrayan que las empresas tecnológicas aún enfrentan una tarea monumental para mitigar estos riesgos sustanciales. A medida que las herramientas de IA obtienen un acceso cada vez mayor a nuestras vidas digitales y físicas, los expertos en seguridad advierten de un flujo continuo de fallas de ciberseguridad que podrían dejar nuestros datos más sensibles peligrosamente expuestos. Como Bargury lo expresó sucintamente: “Es increíblemente potente, pero como es habitual con la IA, más poder conlleva más riesgo”.