Así suena una estafa: el auge del voice hacking  

Scroll to see more
Imagen que representa una estafa por voice hacking

Un día recibes una llamada que parece provenir de tu banco. La voz al otro lado de la línea es la del director de tu sucursal habitual que te solicita realizar una transferencia urgente de dinero para evitar un descubierto. La petición es tan convincente que decides proceder sin dudar. Sin embargo, al intentar confirmar, te das cuenta de que algo no está bien: la llamada es fraudulenta. La voz que escuchaste no era la de la persona que creías, sino una clonación hecha con inteligencia artificial. 

Este tipo de estafa, conocida como voice hacking, es una amenaza creciente que emplea tecnologías avanzadas para manipular la voz humana con fines fraudulentos. En los últimos años, el voice hacking ha ido ganando popularidad, ya que los ciberdelincuentes usan inteligencia artificial y técnicas de síntesis de voz para crear imitaciones exactas de la voz de una persona. 

¿Qué es el Voice Hacking? 

El voice hacking es una técnica de ciberdelincuencia que utiliza tecnología avanzada de síntesis de voz para imitar la voz de una persona con fines fraudulentos. Los atacantes pueden replicar voces utilizando inteligencia artificial, lo que les permite crear mensajes de voz falsos que suenan auténticos. Este tipo de ataque puede ser dirigido a individuos, empresas e incluso, a servicios de atención al cliente con el objetivo de robar información confidencial, realizar transacciones fraudulentas o manipular emocionalmente a la víctima. 

El ejemplo que explicamos al principio no es el único caso en el que los estafadores hacen uso del también conocido como deep voice para timar a sus víctimas. Dos ejemplos de esta táctica son los falsos secuestros de la hija de Jennifer DeStefano y del nieto de Ruth Card. Con voces sintéticas creadas por IA, ambas mujeres recibieron la llamada de sus familiares requiriendo su ayuda para ser liberados. Por suerte, en ambos casos descubrieron a tiempo que la supuesta víctima estaba en perfecto estado.  

En el ámbito empresarial, el caso del falso CEO ha sido el más repetido. Una persona que trabaja en una empresa recibe una llamada de su superior pidiéndole que haga una transferencia a una cuenta concreta. ¿Quién se negaría a acatar una orden expresa? En este artículo puedes conocer con más detalle en qué consiste la estafa del CEO y otros casos similares.  

¿Cuáles son los objetivos? 

El voice hacking puede representar un riesgo significativo cuando se usa con fines maliciosos. Como hemos visto, la sofisticación creciente de las tecnologías utilizadas hace que sea aún más necesario desarrollar medidas avanzadas de detección y análisis para mitigar su impacto. Algunos de esos usos están dirigidos a personas, pero  los delincuentes saben también que pueden obtener mayor botín de empresas y administraciones públicas. Estos son los objetivos de los estafadores que utilizan el voice hacking en la mayoría de los casos para acceder de forma no autorizada en diferentes entornos: 

  1. Acceso no autorizado a sistemas y servicios 
    La manipulación de voz permite sortear mecanismos de autenticación basados en identificación vocal, facilitando el acceso a cuentas bancarias, plataformas de pago y otros servicios digitales que dependen de la verificación por voz. 
  1. Ingeniería social y manipulación de información 
    Al replicar con precisión la voz de una persona, es posible engañar a empleados, clientes o sistemas automatizados para obtener datos sensibles, realizar cambios en cuentas o ejecutar instrucciones fraudulentas sin levantar sospechas. 
  1. Creación de contenido falso con fines de desinformación 
    Los deepfakes de voz pueden utilizarse para fabricar declaraciones falsas atribuidas a figuras públicas, líderes empresariales o personalidades influyentes, con el objetivo de manipular la opinión pública, generar desconfianza o afectar la reputación de una persona o institución. 
  1. Fraude financiero y estafas dirigidas 
    La clonación de voz facilita la realización de transacciones no autorizadas, órdenes de pago fraudulentas y engaños a empleados de empresas o instituciones financieras, lo que puede traducirse en pérdidas económicas significativas. 
  1. Evasión de sistemas de seguridad y vigilancia 
    En entornos donde la verificación de identidad se basa en la voz, estas técnicas pueden utilizarse para suplantar identidades, acceder a zonas restringidas o eludir sistemas de control que dependen de la identificación vocal. 

Voice Hacking: desentrañando el proceso técnico 

No todas las estafas de voz son iguales. En cada una, los delincuentes emplean diferentes técnicas y tecnologías. A continuación, detallamos los tipos más comunes, cómo funcionan y cómo afectan a la seguridad. 

  • Suplantación de identidad de voz (Voice Cloning
    Este ataque se centra en replicar la voz de una persona específica. Utilizando inteligencia artificial y modelos de Deep Learning, los atacantes analizan grabaciones previas de una persona para estudiar su patrón de habla, tono, ritmo y acento. Herramientas como redes neuronales generativas permiten crear un modelo de voz que replica con precisión las características vocales de la víctima. El proceso es relativamente simple: el atacante necesita un número adecuado de grabaciones para entrenar el modelo de voz y con ellas, puede hacer que el sistema de autenticación vocal reconozca una voz falsa como legítima. 
  • Técnicas de síntesis de voz (Voice Synthesis
    La síntesis vocal se refiere a la creación de voces artificiales a partir de texto. Usando software especializado en síntesis de voz, un atacante puede generar una voz que suene humana, pero que no pertenezca a una persona real. Estos sistemas de síntesis se entrenan con grandes volúmenes de datos de audio para generar voces que imitan los patrones humanos de habla. La principal diferencia con la suplantación es que en la síntesis, la voz no necesariamente es la de una persona real, pero puede ser convincente. Los atacantes pueden utilizar esta técnica para interactuar con sistemas automatizados, como los asistentes virtuales, y manipularlos para realizar tareas fraudulentas. 
  • Ataques de replay (Replay Attacks
    En este caso, los atacantes capturan grabaciones de una interacción legítima de voz entre una persona y un sistema de autenticación, y luego las reproducen para intentar engañar al sistema y acceder a información sensible. Esto es particularmente efectivo cuando el sistema de autenticación sólo verifica la voz sin tener en cuenta factores adicionales como la dinámica de la interacción. Para llevar a cabo un ataque de replay, el atacante sólo necesita grabar una conversación o comando válido y reproducirlo en el momento adecuado. Aunque los sistemas modernos intentan evitar estos ataques mediante el uso de claves temporales o características de voz dinámicas, muchos aún no están completamente protegidos contra ellos. 
  • Ataques de modulación de voz (Voice Modulation Attacks

Este tipo de ataque implica la alteración de la voz en tiempo real mediante el uso de software de modulación. Estos programas permiten cambiar el tono, la velocidad y otros parámetros de una voz en tiempo real, lo que dificulta la detección de la falsificación. Por ejemplo, un atacante podría alterar su voz de modo que suene como otra persona o incluso manipular la grabación de voz de un interlocutor durante una llamada en vivo. Las herramientas de modulación, como las que usan técnicas de pitch shifting o time-stretching, permiten que el atacante se infiltre sin que los sistemas de autenticación de voz puedan detectar la alteración. 

Todas estas técnicas —la clonación de voz, la síntesis vocal, los ataques de replay y la modulación de voz— conforman lo que conocemos como voice hacking: un conjunto de métodos que buscan vulnerar los sistemas de autenticación y comunicación mediante la manipulación o suplantación de la voz. Ya sea replicando la voz de una persona real o generando voces artificiales convincentes, estos ataques representan una amenaza creciente en un entorno donde la voz se utiliza cada vez más como medio de identificación y control. 

¿Cómo protegerse del voice hacking? 

Gradiant aplica tecnologías avanzadas de inteligencia artificial y análisis forense multimedia para abordar el desafío de los deepfakes . En el sector asegurador o fintech, así como en medios de comunicación y otros ámbitos empresariales, donde la autenticación por voz y los asistentes virtuales están cada vez más integrados, la detección de manipulaciones es crucial para evitar fraudes como el del CEO que explicamos al inicio. Contar con herramientas capaces de identificar estas amenazas en tiempo real permite a las empresas proteger la confianza de sus clientes y minimizar riesgos operativos y reputacionales

En este contexto, Gradiant lidera la investigación y está desarrollando una suite de herramientas basadas en IA multimodal para combatir las amenazas derivadas del uso malicioso de la inteligencia artificial en contenidos multimedia. En un ecosistema donde los deepfakes de voz pueden comprometer la seguridad de pagos digitales, servicios financieros o la veracidad de las informaciones publicadas, las aseguradoras o los medios de comunicación necesitan soluciones robustas que les permitan verificar la autenticidad de las interacciones y del contenido multimedia. La combinación de tecnologías avanzadas y estrategias de prevención es clave para fortalecer la seguridad en el sector y garantizar la integridad de las operaciones digitales. 

Esta publicación es parte de fAIr (Fight Fire with fAIr), financiado por la Unión Europea NextGeneration-EU y PRTR a través de INCIBE.  

Logos_instituciones_cpp_cpi_incibe_2025_digital.png

Los puntos de vista y las opiniones expresadas son únicamente los del autor o autores y no reflejan necesariamente los de la Unión Europea o la Comisión Europea. Ni la Unión Europea ni la Comisión Europea son responsables de ellas