Exploits de 'Zero-Click' Ponen en Jaque a las Plataformas de IA Empresarial

Decoder

En la reciente conferencia Black Hat USA, la firma de seguridad Zenity reveló una serie de vulnerabilidades alarmantes, colectivamente denominadas “AgentFlayer”, que representan amenazas significativas para algunas de las plataformas de IA empresariales más utilizadas. Estos exploits atacan sistemas prominentes como ChatGPT, Copilot Studio, Cursor, Salesforce Einstein, Google Gemini y Microsoft Copilot, aprovechando un método de ataque sofisticado que requiere poca o ninguna interacción del usuario.

Lo que distingue a estos exploits de “clic cero” y “un clic” es su dependencia de prompts indirectos, instrucciones ocultas incrustadas en recursos digitales aparentemente inofensivos. Esta técnica, conocida como inyección de prompts, ha sido un desafío persistente para los sistemas de modelos de lenguaje grande (LLM) durante años, y a pesar de numerosos intentos, una solución definitiva sigue siendo esquiva. A medida que los sistemas de IA basados en agentes, que operan con una autonomía creciente, se vuelven más frecuentes, estas vulnerabilidades están escalando. Incluso el CEO de OpenAI, Sam Altman, ha advertido a los usuarios que no confíen información sensible a los nuevos agentes de ChatGPT.

El cofundador de Zenity, Michael Bargury, demostró la naturaleza insidiosa de estos ataques con un ejemplo convincente dirigido a Salesforce Einstein, una herramienta de IA diseñada para automatizar tareas como la actualización de detalles de contacto o la integración con plataformas de comunicación como Slack. Los atacantes pueden plantar registros de Customer Relationship Management (CRM) especialmente diseñados que parecen inofensivos. Cuando un representante de ventas realiza una consulta LLM rutinaria, como “¿Cuáles son mis últimos casos?”, el agente de IA escanea el contenido del CRM. Sin que el usuario lo sepa, el agente interpreta las instrucciones ocultas como comandos legítimos y actúa de forma autónoma. En la demostración en vivo, Einstein reemplazó automáticamente todas las direcciones de correo electrónico de los clientes con un dominio controlado por el atacante, redirigiendo silenciosamente las comunicaciones futuras. Si bien las direcciones originales permanecieron en el sistema como alias codificados, el atacante podía rastrear eficazmente a dónde se pretendían enviar los mensajes. Salesforce confirmó que esta vulnerabilidad específica fue parcheada el 11 de julio de 2025, lo que hace imposible este exploit en particular.

Otro exploit de clic cero, denominado “Ticket2Secret”, se dirigió a la herramienta de desarrollo Cursor cuando se integraba con Jira. Zenity mostró cómo un ticket de Jira aparentemente inofensivo podía ejecutar código malicioso dentro del cliente de Cursor sin ninguna acción del usuario. Esto permitía a los atacantes extraer datos sensibles, incluidas claves API y credenciales, directamente de los archivos o repositorios locales de la víctima. Otras demostraciones incluyeron un ataque de prueba de concepto en ChatGPT, donde un prompt invisible (texto blanco con un tamaño de fuente de uno) se ocultó en un Google Doc. Este exploit aprovechó la función “Connectors” de OpenAI, que vincula ChatGPT a servicios como Gmail o Microsoft 365. Si un documento manipulado de este tipo llegaba a la Google Drive de una víctima, una simple solicitud como “Resume mi última reunión con Sam” podría activar el prompt oculto. En lugar de generar un resumen, el modelo buscaría claves API y las transmitiría a un servidor externo.

En una publicación de blog adjunta, Zenity evaluó críticamente el enfoque actual de la industria hacia la seguridad de la IA, particularmente su fuerte dependencia de las “fronteras blandas”. Estas incluyen ajustes a los datos de entrenamiento, filtros estadísticos e instrucciones del sistema destinadas a bloquear comportamientos no deseados. Bargury los descarta como “una frontera imaginaria” que no ofrece verdadera seguridad. En contraste, las “fronteras duras” son restricciones técnicas que impiden inherentemente ciertas acciones, como bloquear URL de imágenes específicas en Microsoft Copilot o validar estructuras de URL en ChatGPT. Si bien estas pueden frustrar de manera confiable algunos ataques, a menudo limitan la funcionalidad, y Zenity señala que los proveedores con frecuencia relajan tales restricciones bajo presión competitiva.

Estas demostraciones de Zenity son parte de una tendencia más amplia que revela fallas de seguridad sistémicas en la IA basada en agentes. Los investigadores han demostrado cómo el asistente Gemini de Google puede ser secuestrado a través de prompts ocultos en invitaciones de calendario, lo que podría permitir a los atacantes controlar dispositivos de Internet de las Cosas (IoT). Otros incidentes incluyen un chatbot que fue manipulado para transferir $47,000 con un solo prompt durante una competencia de hacking, y el nuevo sistema de seguridad LLM de Anthropic siendo eludido en un concurso de jailbreak. Un estudio de red-teaming a gran escala descubrió recientemente brechas de seguridad sistemáticas en 22 modelos de IA en 44 escenarios, lo que apunta a patrones de ataque universales. Además, la investigación ha encontrado que los agentes de IA pueden ser coaccionados a realizar acciones riesgosas en entornos de navegador, lo que lleva a robo de datos, descargas de malware e intentos de phishing. La evidencia colectiva subraya un desafío de seguridad crítico y en evolución para el mundo de la IA en rápido avance.