Inyección de Prompts en IA: Secuestro de Dispositivos Inteligentes vía Invitaciones de Calendario
La conveniencia de los asistentes de inteligencia artificial, como Google Gemini, podría ocultar una preocupante nueva vulnerabilidad de ciberseguridad que permite a los atacantes tomar el control de dispositivos inteligentes y acceder a datos personales sensibles. En la reciente conferencia de ciberseguridad Black Hat USA en Las Vegas, un equipo de investigadores reveló cómo interacciones digitales aparentemente inofensivas, como una invitación de Google Calendar, pueden ser armadas con comandos ocultos para secuestrar electrodomésticos conectados a internet y más.
Esta amenaza emergente, conocida como inyección de prompts, explota la forma en que los grandes modelos de lenguaje (LLM) procesan la información. Los investigadores detallaron sus hallazgos en un artículo titulado “Invitation Is All You Need!”, demostrando 14 métodos distintos para manipular Gemini. El más alarmante de estos implicó la toma de control de sistemas de hogar inteligente, ilustrando cómo los atacantes podrían apagar luces, activar calderas o, de otro modo, arrebatar el control a los propietarios, creando potencialmente escenarios peligrosos o comprometedores. Más allá de los dispositivos domésticos, la investigación también mostró cómo los atacantes podrían obligar a Gemini a iniciar llamadas de Zoom, interceptar detalles de correo electrónico o incluso descargar archivos del navegador web de un teléfono conectado.
Muchos de estos exploits comenzaron con una invitación de Google Calendar engañosamente simple, envenenada con inyecciones de prompts diseñadas para eludir los protocolos de seguridad incorporados del modelo de IA una vez activados. Estos están lejos de ser incidentes aislados; investigadores de seguridad han demostrado previamente vulnerabilidades similares en otros LLM. Por ejemplo, la inyección de prompts se ha utilizado para comprometer asistentes de código como Cursor, y el mes pasado, la herramienta de codificación de Amazon fue supuestamente infiltrada por un atacante que le ordenó eliminar archivos de las máquinas en las que se ejecutaba.
Cada vez es más evidente que los modelos de IA son susceptibles a directivas ocultas. Un estudio reciente reveló que un modelo de IA utilizado para entrenar otros modelos transmitió inadvertidamente peculiaridades y preferencias específicas, incluso cuando las referencias explícitas a dichas preferencias se filtraron de los datos de entrenamiento. Esto sugiere que mensajes o instrucciones no vistos pueden estar transmitiéndose entre sistemas de IA de formas aún no completamente comprendidas.
El funcionamiento interno de los grandes modelos de lenguaje sigue siendo en gran medida “cajas negras”, lo que dificulta comprender completamente cómo procesan y responden a las entradas. Sin embargo, los actores maliciosos no necesitan comprender los intrincados mecanismos en juego; simplemente necesitan descubrir cómo incrustar un mensaje que obligue a la IA a comportarse de una manera específica y explotadora. Si bien los investigadores informaron responsablemente a Google sobre las vulnerabilidades descubiertas, y la compañía ha abordado los problemas específicos desde entonces, el riesgo más amplio sigue aumentando. A medida que la IA se integra más profundamente en diversas plataformas y aspectos de la vida diaria, particularmente con el lanzamiento de agentes de IA capaces de interacciones de varios pasos con aplicaciones y sitios web, el potencial de explotación de tales debilidades se escala dramáticamente.