Google Gemini vulnerable: Prompts ocultos en invitaciones de calendario
Investigadores israelíes han descubierto una vulnerabilidad significativa en el asistente Gemini de Google, demostrando cómo la IA puede ser manipulada para filtrar datos sensibles o incluso controlar dispositivos físicos a través de instrucciones ocultas incrustadas en elementos digitales cotidianos. Un nuevo estudio, titulado provocativamente “Invitation Is All You Need” (La invitación es todo lo que necesitas), detalla cómo los sistemas impulsados por Gemini son susceptibles a lo que los investigadores denominan “ataques de promptware dirigidos”. Estas vulnerabilidades, sofisticadas pero sencillas, se distinguen de los métodos de hacking tradicionales, ya que no requieren acceso directo al modelo de IA ni conocimientos técnicos especializados por parte del atacante.
En cambio, el ataque se basa en una forma insidiosa de “inyección indirecta de prompts”, donde los comandos maliciosos se ocultan dentro de contenido aparentemente inofensivo como correos electrónicos, invitaciones de calendario o documentos compartidos de Google Docs. Cuando un usuario interactúa con Gemini —quizás pidiendo ayuda dentro de Gmail, Google Calendar o a través de Google Assistant— el prompt oculto se activa, secuestrando eficazmente la función prevista de la IA. Las consecuencias de tal ataque son de gran alcance, desde el envío de correos electrónicos no deseados y la eliminación de citas programadas hasta el control no autorizado de dispositivos de hogar inteligente. En una sorprendente demostración, los investigadores utilizaron con éxito estos prompts ocultos para manipular un sistema de hogar inteligente, apagando luces, abriendo ventanas e incluso activando una caldera, todo ello desencadenado por frases aparentemente inofensivas como “gracias” o “genial”.
El estudio describe meticulosamente cinco categorías distintas de estos ataques y presenta catorce escenarios realistas que podrían comprometer tanto sistemas digitales como físicos. Estos incluyen el envenenamiento de contexto a corto plazo, que influye inmediatamente en la tarea actual de Gemini; la manipulación a largo plazo de datos de usuario almacenados; la explotación de herramientas internas de Google; la escalada a otros servicios de Google como Google Home; y el lanzamiento remoto de aplicaciones de terceros como Zoom en dispositivos Android.
La facilidad con la que estos grandes modelos de lenguaje pueden ser comprometidos es una preocupación significativa. Dado que estos ataques no requieren acceso directo al modelo, hardware especializado o experiencia en aprendizaje automático, los atacantes pueden simplemente elaborar instrucciones maliciosas en inglés simple e incrustarlas donde es probable que Gemini las procese. Utilizando su marco de análisis de riesgos TARA, los investigadores evaluaron las amenazas potenciales, encontrando que un sustancial 73% caía en la categoría de riesgo “alto-crítico”. Esta alarmante combinación de simplicidad y gravedad subraya una necesidad urgente de medidas de seguridad más robustas.
Los expertos en seguridad han sido conscientes de tales vulnerabilidades desde los primeros días de los grandes modelos de lenguaje, con prompts simples como “ignorar instrucciones anteriores” demostrando ser capaces de romper las barreras de seguridad en modelos tan antiguos como GPT-3. A pesar de los avances, incluso los modelos de IA más sofisticados de hoy en día siguen siendo susceptibles, y una solución definitiva y fiable —particularmente para sistemas basados en agentes que interactúan directamente con el mundo real— sigue siendo esquiva. Pruebas exhaustivas recientes han revelado que cada agente de IA importante ha fallado, como mínimo, al menos una evaluación de seguridad crítica.
Google, habiendo sido alertado de estas vulnerabilidades en febrero de 2025, respondió solicitando 90 días para implementar contramedidas. Desde entonces, la compañía ha desplegado varias salvaguardias. Estas incluyen confirmaciones de usuario obligatorias para acciones sensibles, mecanismos mejorados de detección y filtrado de URL sospechosas, y la introducción de un nuevo clasificador diseñado específicamente para identificar y neutralizar las inyecciones indirectas de prompts. Google afirma haber probado internamente todos los escenarios de ataque identificados, junto con variantes adicionales, y confirma que estas nuevas defensas están ahora activamente desplegadas en todas las aplicaciones de Gemini. La investigación innovadora fue un esfuerzo colaborativo de equipos de la Universidad de Tel Aviv, el Technion y la firma de ciberseguridad SafeBreach.