Vishing con Deepfake: La Clonación de Voz con IA Potencia Estafas Indetectables

Arstechnica

Las llamadas fraudulentas que emplean inteligencia artificial para clonar voces familiares se han convertido en una amenaza omnipresente. Cada vez más, las víctimas reportan recibir llamadas que suenan exactamente como un nieto, un CEO o un colega de mucho tiempo, a menudo transmitiendo una crisis urgente que exige acción inmediata, ya sea transferir dinero, divulgar credenciales de inicio de sesión sensibles o navegar a un sitio web malicioso. Esta forma sofisticada de phishing de voz, o “vishing”, aprovecha el poder de la tecnología deepfake para explotar la confianza y la urgencia.

Investigadores de seguridad y agencias gubernamentales han emitido advertencias sobre esta amenaza creciente durante varios años. En 2023, la Agencia de Ciberseguridad e Infraestructura de Seguridad (CISA) notó un aumento “exponencial” en las amenazas de deepfake y otros medios sintéticos. Más recientemente, la división de seguridad Mandiant de Google informó que estos ataques se ejecutan con una “precisión asombrosa”, creando esquemas de phishing mucho más realistas y convincentes que nunca.

La firma de seguridad Group-IB detalló recientemente las etapas fundamentales involucradas en la ejecución de estos ataques de vishing con deepfake, destacando su facilidad de replicación a escala y los desafíos significativos que plantean para la detección y la defensa. El proceso generalmente comienza con la recopilación de muestras de voz del objetivo de la suplantación. Sorprendentemente, muestras tan breves como tres segundos, obtenidas de videos públicos, reuniones en línea o llamadas de voz anteriores, pueden ser suficientes. Estas muestras se introducen luego en motores de síntesis de voz basados en IA, como Tacotron 2 de Google, Vall-E de Microsoft o servicios comerciales como ElevenLabs y Resemble AI. Estos potentes motores permiten a los atacantes usar una interfaz de texto a voz, generando palabras elegidas por el usuario con el tono de voz exacto y los tics conversacionales de la persona que está siendo suplantada. Si bien la mayoría de estos servicios prohíben el uso malicioso de deepfakes, una investigación de Consumer Reports en marzo reveló que sus salvaguardias a menudo pueden eludirse con un esfuerzo mínimo.

Un paso opcional, pero común, implica la suplantación del número de teléfono de la persona u organización que está siendo suplantada, una técnica que se ha utilizado durante décadas para mejorar la credibilidad. Los atacantes luego inician la llamada fraudulenta. En algunos casos, la voz clonada entrega un mensaje preescrito. Sin embargo, los ataques más sofisticados implican la generación en tiempo real del habla falsa a través de software de enmascaramiento o transformación de voz. Estas interacciones en tiempo real son significativamente más convincentes, ya que permiten al atacante responder dinámicamente a cualquier pregunta o escepticismo del destinatario, haciendo que el engaño sea notablemente difícil de discernir. Si bien la suplantación en tiempo real todavía está algo limitada en el vishing deepfake generalizado, Group-IB anticipa que se volverá mucho más común en un futuro cercano, impulsada por los avances en la velocidad de procesamiento y la eficiencia del modelo. En cualquier escenario, el atacante utiliza la voz fabricada para establecer una pretensión convincente para que el destinatario tome medidas inmediatas, como un nieto que necesita dinero para la fianza, un CEO que exige una transferencia bancaria urgente para un gasto atrasado o un profesional de TI que instruye a un empleado para que restablezca una contraseña después de una supuesta violación de datos. El objetivo final es recolectar efectivo, credenciales robadas u otros activos, y una vez que se toma la acción solicitada, a menudo es irreversible.

La alarmante efectividad de estos ataques se destacó en un ejercicio simulado de equipo rojo realizado por el equipo de seguridad de Mandiant, diseñado para probar las defensas y capacitar al personal. Los miembros del equipo rojo reunieron muestras de voz disponibles públicamente de un ejecutivo dentro de la organización objetivo y luego usaron otra información accesible públicamente para identificar a los empleados que reportaban a este individuo. Para hacer la llamada aún más creíble, aprovecharon una interrupción del servicio VPN en el mundo real como pretexto urgente. Durante el ataque simulado, la víctima, confiando en la voz familiar, eludió las indicaciones de seguridad tanto de Microsoft Edge como de Windows Defender SmartScreen, descargando y ejecutando sin saberlo una carga útil maliciosa preparada previamente en su estación de trabajo. Mandiant concluyó que la detonación exitosa de esta carga útil “demostró la alarmante facilidad con la que la suplantación de voz con IA puede facilitar la violación de una organización”.

Afirmaciones simples pueden mitigar significativamente el riesgo de ser víctima de tales estafas. Una estrategia efectiva es que las partes acuerden una palabra o frase secreta elegida al azar que el llamante debe proporcionar antes de que el destinatario cumpla con cualquier solicitud. Otro paso crítico es finalizar la llamada y volver a llamar a la persona de forma independiente utilizando un número conocido y verificado. Idealmente, ambas precauciones deberían seguirse. Sin embargo, estas salvaguardias dependen de que el destinatario permanezca tranquilo y alerta, un desafío significativo cuando se enfrenta a una crisis aparentemente legítima y urgente. Esto se vuelve aún más difícil cuando el destinatario está cansado, estresado o no está en su mejor momento. Por estas razones, los ataques de vishing, ya sean mejorados por IA o no, probablemente seguirán siendo una amenaza persistente.