¿Tu cantante favorita te regala un juego de ollas y sartenes de lujo? En un anuncio, Taylor Swift te indica con su voz que sólo tienes que pagar los gastos de envío. Por supuesto, ese set con el que pensabas preparar tu candidatura a MasterChef mientras bailabas a ritmo de ‘It’s over now’ nunca llegó. Este fraude costó a cada persona engañada unos 10 euros.
En otros casos, como el del empleado de la compañía de Hong Kong, los estafadores lograron algo más: 23 millones de euros. Antes de que creas que el empleado fue un ingenuo, presta atención al taimado plan que llevaron a cabo los delincuentes: primero, el empleado recibió un email de su director financiero, pero ante su desconfianza hacia la orden que le estaba dando, propuso una llamada. A lo largo de una semana, tuvieron lugar varias videollamadas no sólo con el CFO, también con otros directivos de la empresa. Sin embargo, nadie era quien parecía ser ya que los delincuentes utilizaron deepfake de voz y de vídeo para recrear a los ejecutivos.
Estafa del CEO y otros fraudes
Aún hay más: deepfakes de voz para contratar servicios a tu nombre que jamás has pedido, llamadas de familiares supuestamente secuestrados, directivos de empresas hablando mal del producto de su propia compañía… La creatividad de los delincuentes que emplean los vídeos, imágenes o audios creados con inteligencia artificial parece no tener límites.
Una de las estafas más frecuentes de este tipo es la denominada ‘estafa del CEO’ y no es necesario que se haga con videollamada como en el caso de la empresa de Hong Kong antes mencionada. Simplemente, a través del teléfono, un empleado recibe una llamada de su jefe ordenándole una operación. Otra modalidad es la de un inversor o cualquier cliente habitual de un banco que llama a su sucursal y ordena realizar determinadas operaciones o transferencias. Por la relación existente previamente, se ejecutan. Ambas operaciones tienen en común un banco, una enorme cantidad de dinero y un deepfake, en estos casos un deepvoice.
Tipos de deepfake
Según el Instituto Nacional de Ciberseguridad, el deepfake es una técnica que permite superponer en un vídeo el rostro de una persona en el de otra, añadiendo su voz y sus gestos para que parezcan los de la persona suplantada. El origen del nombre viene del Deep Learning, un campo de la inteligencia artificial que utiliza redes neuronales artificiales para imitar el proceso de aprendizaje del cerebro humano. Hay dos tipos de deepfakes atendiendo al tipo de contenido multimedia que generan::
- Deepvoice: se unen fragmentos de voz de la víctima y se replica su voz para decir otro mensaje. Así es como se consigue la voz de un CEO pidiendo una transferencia o de un familiar pidiendo ayuda para un rescate.
- Deepface: se unen fragmentos de contenido multimedia en los que aparezca la víctima y se consigue suplantar la cara de esta y sus gestos. Así es como se crearon vídeos como el del anuncio en el que reviven a Lola Flores, pero también, la videollamada con la falsa junta directiva que logró un botín de 23 millones de euros, el deepface en el que un CEO habla mal del producto de su compañía o se ve a algún personaje famoso en una situación comprometida.
En el deepface existen cuatro modalidades:
- FaceSwaping: una cara de origen reemplaza a otra en la imagen final.
- Cambios de expresiones faciales: reemplazo de una expresión en el vídeo objetivo por otra expresión obtenida de otra vídeo, con el fin de conseguir gestos o expresiones que puedan, por ejemplo, hacer coincidir el movimiento de los labios y expresiones con las necesarias para incluir un discurso diferente al real que aparece en el vídeo. También puede aplicarse a imágenes, es decir, creación de un vídeo a partir de una imagen.
- Generación sintética: identidades creadas desde cero utilizando una red generativa adversaria o modelo de difusión.
- Morphing : combinación de caras de apariencia similar para producir una identidad que contenga las características de las fuentes.
«Eso no me va a pasar a mí»
Cuando se conocen las noticias sobre fraudes en los que se ha utilizado el deepfake es fácil pensar que esas personas cayeron en el engaño porque no prestaron atención a las señales debidas, que no fueron suficientemente cautos. Sin embargo, ni el ojo humano es infalible y mucho menos el oído.
Según un estudio de la Universidad de Texas, a simple vista sólo somos capaces de detectar el 50% de las imágenes falsas cuando se trata de fotografías generadas por IA. En el caso del deepvoice, en este otro estudio que hizo pruebas a más de 500 personas el resultado fue que una de cada cuatro veces la persona no era capaz de identificar un deepvoice. Incluso cuando la mitad del grupo recibió un entrenamiento previo, el resultado sólo mejoró un 3%.
Soluciones de detección necesarias
A medida que la creatividad de los ciberdelincuentes ingenia formas diferentes de hacer un uso fraudulento de los avances tecnológicos, se hacen más necesarias tecnologías que permitan detectar estos delitos. Detectar a simple vista un vídeo o imagen generado con deepfake no es fácil como hemos visto. En el caso de los deepvoice es aún más difícil. Los investigadores del University College London detectaron que los participantes en su estudio mencionaban las mismas características sobre las voces escuchadas, independientemente de si eran voces falsas o no; dedujeron que esto era debido a la subjetividad. Por eso, para evitar los fraudes que utilizan las deepfakes es imprescindible continuar desarrollando herramientas tecnológicas capaces de detectarlos.
El enfoque principal para combatir los deepfakes se apoya principalmente en la propia tecnología de inteligencia artificial. No obstante, la evolución constante de las técnicas de generación de deepfakes provoca que las herramientas de detección actuales se vuelvan obsoletas rápidamente. Esto requiere de soluciones que incorporen mecanismos de mejora continua y actualización para poder combatir de una forma efectiva el problema.
Solución de Gradiant y Councilbox
En la Unidad Mixta de Investigación GICTEL, cofinanciada por GAIN, y en colaboración entre Gradiant y Councilbox, hemos desarrollado una solución híbrida de detección de deepfakes de vídeo/imagen y voz, que muestra grandes capacidades de generalización gracias a técnicas novedosas de selección, curado y aumentado de datos aplicados en la fase de entrenamiento, así como la realización de un análisis multimodal que fusiona las predicciones de los sistemas de detección sobre audio, imagen y vídeo.. Los modelos de IA que desarrollamos en GICTEL pueden fijarse en detalles que pasan desapercibidos para el ojo y el oído humano. A partir de la fase de entrenamiento, pueden aprender esas peculiaridades de los datos para poder clasificar correctamente si un vídeo, imagen o audio se trata de un caso real o falso.
El caso que antes presentamos, el fraude de la videollamada de los directivos de la empresa de Hong Kong, se podría haber evitado si hubieran utilizado los productos de Councilbox. Estas soluciones incluyen la videoconferencia por ser parte fundamental de los procesos de toma de decisión en juntas, asambleas y otras reuniones corporativas, así como para la realización de trámites con organismos públicos y empresas privadas. En GICTEL fusionamos la detección a nivel visual y auditivo para tener una doble comprobación de la veracidad de los datos, una peculiaridad que distingue este sistema.
Operación co-financiada por la Unión Europea programa operativo Feder Galicia 2021-2027. Unidad Mixta de Investigación para el desarrollo de diversas tecnologías altamente innovadoras en el ámbito de la gestión de identidad y ciberseguridad. FEDER, una manera de hacer Europa.