Alertan: Chatbots LLM, arma fácil para robar datos personales

Theregister

La creciente adopción de chatbots de modelos de lenguaje grande (LLM) en varios sectores, elogiados por sus interacciones naturales y atractivas, enmascara una vulnerabilidad preocupante: su sorprendente facilidad para ser convertidos en armas para el robo de datos. Una advertencia reciente de un equipo de investigadores, que se presentará en el 34º Simposio de Seguridad de USENIX, destaca que estos asistentes de IA aparentemente benignos pueden transformarse trivialmente en agentes maliciosos capaces de recolectar de forma autónoma los datos personales de los usuarios. Esta alarmante capacidad proviene de las propias herramientas de personalización de “prompt del sistema” proporcionadas por desarrolladores líderes de IA como OpenAI, permitiendo a atacantes con “mínima experiencia técnica” eludir las salvaguardias de privacidad establecidas.

En el corazón de esta amenaza se encuentra la inyección de prompts, una técnica sofisticada donde entradas cuidadosamente elaboradas engañan a un LLM para que ignore sus instrucciones originales y ejecute comandos no autorizados. Esto puede manifestarse como inyección directa, donde las instrucciones maliciosas se incrustan directamente en la entrada de un usuario, o de manera más insidiosa, como inyección indirecta, donde las instrucciones se ocultan dentro de fuentes de datos externas que el LLM procesa, como una reseña de producto aparentemente inofensiva, una página web o un documento. La naturaleza insidiosa de la inyección indirecta de prompts la hace particularmente peligrosa para los sistemas de Generación Aumentada por Recuperación (RAG), que están diseñados para buscar y procesar información de fuentes externas potencialmente no confiables. Los LLM, construidos para seguir instrucciones, a menudo tienen dificultades para diferenciar entre comandos legítimos del desarrollador y comandos maliciosos inyectados.

Investigadores, incluido Xiao Zhan, postdoctorado en el Departamento de Informática del King’s College de Londres, demostraron que simplemente asignar nuevos “roles” como “investigador” o “detective” a un LLM a través de prompts del sistema podría obligarlo a solicitar información personal, eludiendo eficazmente las barreras de privacidad incorporadas. Este enfoque de “pedir amablemente” para subvertir el propósito previsto de una IA reduce drásticamente el umbral para los ciberdelincuentes, democratizando las herramientas para la invasión de la privacidad. El OWASP Top 10 para Aplicaciones LLM 2025 enumera la inyección de prompts (LLM01:2025) y la divulgación de información sensible (LLM02:2025) como riesgos críticos, lo que subraya la naturaleza generalizada de estas vulnerabilidades. Además, el propio prompt del sistema, destinado a guiar el comportamiento del modelo, puede contener inadvertidamente información sensible o reglas internas, que los atacantes pueden explotar para obtener más información o acceso.

Las implicaciones van más allá de la mera fuga de datos. Una inyección de prompts exitosa puede llevar a la obtención de información sensible, incluida información de identificación personal (PII) como números de tarjetas de crédito, o incluso revelar detalles sobre la infraestructura del sistema de IA. En algunos casos, estos ataques pueden escalar a acceso no autorizado y escalada de privilegios dentro de sistemas conectados. El auge de los “sistemas de IA agenciales”, donde los LLM obtienen autonomía para realizar tareas de varios pasos a través de herramientas y API, amplifica aún más la amenaza, permitiendo un compromiso más amplio del sistema y actividades maliciosas coordinadas. Investigaciones recientes incluso han destacado los ataques de “LLMjacking”, donde las credenciales de la nube robadas se utilizan para obtener acceso y explotar servicios LLM alojados en la nube, lo que podría generar costos financieros significativos para las víctimas o la venta de acceso a LLM a otros ciberdelincuentes.

Mientras la industria lidia con estas amenazas en evolución, se están explorando varias estrategias de mitigación. Los expertos recomiendan tratar todas las entradas como no confiables, emplear delimitadores para separar las instrucciones de los datos del usuario e implementar una validación robusta de entrada/salida. El principio de privilegio mínimo debe aplicarse a las capacidades de LLM, limitando su acceso a sistemas y datos sensibles. Técnicas como el blindaje de prompts, el red-teaming automatizado y la huella digital de prompts también están surgiendo como defensas. Los principales desarrolladores de IA están trabajando activamente en contramedidas; Google, por ejemplo, está implementando defensas en capas para sus modelos Gemini, incluyendo confirmaciones de usuario mejoradas para acciones sensibles y detección avanzada de inyección de prompts. Sin embargo, el desafío continuo radica en el hecho de que incluso técnicas sofisticadas como la Generación Aumentada por Recuperación (RAG) y el ajuste fino no eliminan por completo las vulnerabilidades de inyección de prompts, lo que requiere una vigilancia continua y medidas de seguridad adaptativas.