Deepfake: Qué es, tipos y ejemplos

El deepfake no es algo nuevo, pero la rápida evolución que está experimentando la inteligencia artificial (IA) estos últimos años, ha hecho que los deepfakes cobren mayor relevancia y, lo que puede ser más preocupante en algunos escenarios, cada vez resultan más realistas y menos distinguibles de la realidad. En este artículo explicamos qué es un deepfake, qué tipos existen, qué riesgos tienen y cómo podemos reconocerlos.

En este artículo hablamos de:

¿Qué es deepfake?
Tipos de deepfake
Ejemplos de deepfake
¿Cómo funcionan los deepfakes?
¿Por qué son peligrosos los deepfakes?

¿Qué es deepfake?

Un deepfake es un vídeo o audio creado mediante inteligencia artificial que imita la apariencia y la voz de una persona real.

Esta es la definición de deepfake sencilla. Si ahondamos un poco más, el deepfake es una técnica que emplea el deep learning o aprendizaje profundo y las redes neuronales (sofisticadas técnicas de IA en las que se emplean algoritmos capaces de aprender por sí mismos a resolver problemas) para recrear de manera muy convincente y en tiempo real la imagen o voz de una persona.

Actualmente, estamos más familiarizados con los vídeos deepfake, pero esta técnica se emplea también para elaborar imágenes estáticas y/o clonaciones de voz. Además, y cómo decíamos en la introducción, no se trata de algo nuevo, sino que existen desde finales de la década de los 90 (posiblemente, el primer vídeo deepfake fue hecho en 1997); desde entonces la tecnología se ha ido sofisticando y mejorando, cobrando mayor notoriedad en 2017, cuando «resurgieron» al publicarse en Reddit material pornográfico falso con el rostro de varias actrices famosas, de hecho, y cómo veremos más adelante, los deepfakes se usan mayoritariamente para crear contenido pornográfico falso, donde el 99% de las víctimas son mujeres (de acuerdo al informe State of deepfake 2023, realizado por Home Security Heroes).

Aunque los deepfakes de los que más se habla ahora, son aquellos usados con fines maliciosos (pornovenganza, estafas y fraudes, manipulación y fake news), también tienen usos legales y legítimos, especialmente encontramos ejemplos de deepfake legal en la industria del entretenimiento y el cine, donde se emplean para recrear actores ya fallecidos (la última trilogía de Star Wars es un ejemplo de ello). Paradójicamente, este uso en el cine también está creando cierto nivel de alarma entre los actores, ya que a través de estas técnicas de IA podría llegar a ser posible prescindir de ellos, una vez se cuenta con el material original necesario para entrenar la IA y generar los deepfakes de los actores (entre los motivos de la huelga de Hollywood de 2023 estaba precisamente el uso de la IA con estos fines).

Tipos de deepfake

Aunque los deepfake son cada vez más sofisticados y son capaces de generar vídeos en los que se combina el audio y la imagen, aún podemos hablar de dos tipos de deepfake: el deepface y el deepvoice.

Deepface: Consiste en crear fotos convincentes pero completamente ficticias desde cero. Podemos utilizarse para generar fotos de rostros de personas que no existen o para crear imágenes o vídeos en los que se sustituye un rostro de una persona por el de otra, creando una imagen o vídeo falso. La animación de imagen tiene como objetivo generar secuencias de vídeo de modo que la persona en la imagen de origen esté animada de acuerdo con el movimiento de un vídeo. Esta tecnología se encuentra dentro del campo de la visión por ordenador, y los investigadores de IA han estado trabajando para producir vídeos más realistas. Aprovecha el aprendizaje automático para manipular y generar imágenes o vídeos que reemplazan a una persona por otra.
Deepvoice: Es la suplantación de la voz de una persona en un audio, haciendo que parezca su voz real, para lo que es necesario entrenar a la IA con muestras de voz de la persona cuya voz se quiere falsificar. Se pueden crear voces falsas o hacer que la voz de una persona diga algo que realmente no ha dicho, como ocurrió en 2019, cuando empleando esta tecnología, los ladrones pudieron convencer a un ejecutivo de energía para que pensara que estaba hablando por teléfono con el CEO de su empresa matriz, engañándolo para que transfiriera más de 250.000 dólares a su cuenta.

deepfake

Ejemplos de deepfake

En la actualidad es fácil encontrar ejemplos de deepfakes, ya que el uso de modelos de IA se está popularizando mucho, pero por mencionar algunos que seguramente todos recordaréis o habréis visto, aquí varios deepfakes como ejemplos de lo que se puede llegar a hacer con esta técnica de IA:

Fue uno de los deepfake que más relevancia tuvo en EE. UU. cuando se emitió; se trata de un supuesto vídeo de BuzzFeed en el que el expresidente Obama decía la frase «President Trump is a total and complete ‘dipshit’» («el presidente Trump es un idiota integral»); la imagen parece de un Obama real, la voz era de Jordan Peele, aunque resulta muy parecida a la de Obama (si tenéis curiosidad, podéis ver el vídeo todavía en YouTube). Este vídeo se hizo, precisamente, para alertar de las manipulaciones que pueden hacerse de la realidad mediante IA, en un mundo en el que ya convivimos con las fake news.

Con el mismo fin de denunciar los peligros de los deepfakes, los artistas Bill Posters y Daniel Howe hicieron un vídeo de este tipo protagonizado por un falso Mark Zuckerberg (creador de Facebook); en esta grabación el supuesto Zuckerberg se vanagloria del poder que la da tener acceso a los datos personales robados de millones de personas. Este deepfake no es el más sofisticado (la voz, por ejemplo, no está muy lograda), pero ayuda a entender el riesgo que suponen los deepfake a medida que la tecnología se perfeccione. De hecho, se hizo en un momento en que los vídeos deepfake comenzaban a aparecer en redes sociales como Facebook.

Tal fue el caso de nuestro siguiente ejemplo de deepfake, un vídeo en el que la política demócrata Nancy Pelosi aparecía supuestamente embriagada. El vídeo era falso y se solicitó su retirada de Facebook, que no lo hizo, arguyendo que no violaba ninguna de sus políticas. El vídeo de Zuckerberg del ejemplo anterior se hizo, en parte como respuesta a este hecho, si bien Meta tampoco lo ha retirado de sus redes sociales, por la misma razón.

Otro ejemplo de deepfake con fines manipuladores lo pudimos ver en 2022, en el contexto de la guerra de Ucrania, cuando apareció un supuesto vídeo en el que un falso presidente Zelenski ordenaba a su ejército a rendirse. Este deepfake tampoco fue de lo más elaborados, pero pone de manifiesto cómo se pueden usar para la desinformación.

El siguiente ejemplo de deepfake hacía referencia al uso pornográfico de esta técnica y protagonizó las noticias en España durante varios días, ya que afectaba a menores de edad. Hablamos de la creación y difusión de desnudos hechos con IA de chicas menores de edad en Almendralejo (Badajoz). Estos deepfakes los hicieron otros jóvenes menores de edad, en algunos casos, compañeros de instituto de las víctimas, que los compartían a través de WhatsApp. Desgraciadamente, este es solo uno de los miles de ejemplos de deepfakes de contenido pornográfico que circulan por la Red (y, cómo ya dijimos, donde el 99% de las víctimas son mujeres).

El último ejemplo de deepfake que os dejamos, es uno lícito; en el programa El Intermedio de la Sexta, hemos podido ver cómo las caras de los expresidentes Felipe González y José María Aznar se «superponían» sobre las del Gran Wyoming y Dani Mateo prácticamente sin fisuras (si bien, la voz aquí no se clonaba).

Finalmente, si queréis ver deepfakes de rostros que no existen, pero que parecen reales, podéis visitar la web thispersondoesnotexist.com.

¿Cómo funcionan los deepfakes?

Cómo decíamos más arriba, los deepfakes se hacen usando programas que emplean modelos de IA de aprendizaje profundo, que se entrenan con numerosas imágenes y/o muestras de voz de la persona o personas cuyos rostros o voces se quieren falsear, cuantas más muestras se usen para entrenar la IA, mejores serán los resultados obtenidos.

Existen diferentes técnicas para crear deepfakes y actualmente, esta tecnología se ha puesto a disposición del público a través de los denominados deepfakes programs o programas y aplicaciones ya listos para usar sin necesidad de tener grandes conocimientos técnicos.

En cualquier caso, y de manera sencilla, sin entrar en tecnicismos, lo que hacen estos programas es, primero, ejecutar miles de tomas faciales de las dos personas a través de un algoritmo de IA llamado codificador. El codificador encuentra y aprende similitudes entre las dos caras y las reduce a sus características comunes compartidas, comprimiendo las imágenes en el proceso.

Luego se enseña un segundo algoritmo de IA llamado decodificador para recuperar las caras de las imágenes comprimidas. Debido a que las caras son diferentes, entrena un decodificador para recuperar la cara de la primera persona y otro decodificador para recuperar la cara de la segunda persona.

Para realizar el intercambio de caras, simplemente introduce imágenes codificadas en el decodificador «incorrecto». Por ejemplo, una imagen comprimida de la cara de la persona A se alimenta al decodificador capacitado en la persona B. El decodificador luego reconstruye la cara de la persona B con las expresiones y la orientación de la cara A para un video convincente.

Otra forma de hacer deepfakes utiliza lo que se llama una red de confrontación generativa, o GAN.

Un GAN enfrenta dos algoritmos de inteligencia artificial uno contra otro. El primer algoritmo, conocido como generador, recibe ruido aleatorio y lo convierte en una imagen. Esta imagen sintética se agrega a una secuencia de imágenes reales, de celebridades, digamos, que se introducen en el segundo algoritmo, conocido como discriminador.

Al principio, las imágenes sintéticas no se verán como caras. Pero si repites el proceso innumerables veces, con comentarios sobre el rendimiento, el discriminador y el generador mejoran. Dados suficientes ciclos y comentarios, el generador comenzará a producir rostros completamente realistas de celebridades completamente inexistentes, con el objetivo de que el discriminador no sea capaz de diferenciar una imagen real de una generada.

¿Por qué son peligrosos los deepfakes?

Los deepfakes son peligrosos porque cada vez se parecen más a la realidad. A medida que los modelos de IA son cada vez más sofisticados y potentes y con millones de imágenes circulando por la Red, crear deepfakes se vuelve más fácil y, cómo ya dijimos más arriba, su uso no siempre es inocuo o con buenos fines, sino que se emplean mayoritariamente con fines que podríamos definir como maliciosos.

Esto nos lleva a hablar de diferentes tipos de peligros asociados a los deepfakes, entre los que destacan:

Bulos y manipulación: Los deepfakes pueden emplearse para hacernos creer que una persona ha dicho o hecho algo que no es verdad (tal y como veíamos en los ejemplos), estoy tiene un gran potencial para crear y promover fake news o bulos con el fin de manipular a la ciudadanía en general o a determinados sectores de la sociedad en particular. También tiene como consecuencia la pérdida de confianza de los ciudadanos en la información, la difusión de propaganda y la interferencia en procesos democráticos.
Pornografía: Dirigidos mayoritariamente contra las mujeres, la pornografía online se ha servido y si sigue sirviendo de los deepfake actrices y otros personajes relevantes, pero también afecta a mujeres anónimas en los casos de pornovenganza o sextorsión que usan deepfakes, o incluso a adolescentes y niñas (ya hemos tenido noticias del uso de deepfakes para generar pornografía infantil). La creación de deepfakes de supuestos vídeos privados e íntimos, puede emplearse para llevar a cabo chantajes contra cualquier persona.
Estafas y fraudes: Los deepfakes también se emplean para la suplantación de identidad con el fin de llevar a cabo diferentes estafas y fraudes, como el que ya citábamos más arriba, o, en el caso de los deepvoices, hacer creer a las víctimas que alguien al que conocen necesita ayuda y dinero (por ejemplo, simulando un secuestro).

Si bien es cierto que aún podemos reconocer los deepfakes menos elaborados o burdos (fallos de posicionamiento, iluminación, menor parpadeo, duración corta, etc.), también lo es que las técnicas de IA no dejan de desarrollarse y mejorar y cada vez se irá volviendo más difícil detectar y reconocer un deepfake como lo que es, un vídeo o imagen falsos; tanto es así, que ya hay empresas trabajando en desarrollar tecnologías que permitan detectar deepfakes que el ojo humano no sea capaz de reconocer como tales.

En definitiva, la creación de deepfakes, ya sean de vídeo, imagen o voz, cada vez se extiende más y, lo que puede ser más preocupante, parece que se usan más con fines maliciosos, por lo que es necesario no solo el desarrollo de herramientas que nos ayuden a detectarlos, sino también a ser más críticos con la información que recibimos a través de supuestos vídeos, imágenes o audios protagonizados por personas relevantes o conocidas.