Réplicas digitales de personas: los deepfakes son negocio

En ‘Roadrunner’, el documental sobre Anthony Bourdain, su director, Morgan Neville, se basó en decenas de miles de horas de imágenes de vídeo y archivos de audio del famoso chef presentador de TV. Sólo tenía un problema: Bourdain se había suicidado y le faltaba el audio para la voz en off de tres líneas de texto. Se trataba de un email que Bourdain había escrito a un amigo, pero que nunca había leído en voz alta. O por lo menos no había dejado registro de ello. Neville contrató a una empresa de software que utilizó inteligencia artificial para generar réplicas digitales con los registros de voz que ya tenía, y produjo el audio que el director necesitaba.

Las frases del deepfake de la voz de Bourdain dentro del largometraje son indetectables del resto que fue pronunciado verdaderamente por él en vida. Además de esos segundos de audio, lo que produjo esta decisión fue un notable grado de enfado entre los fans del chef. El tema de la voz fake de Bourdain fue trending topic en Twitter.

«Esto es macabro», dice un comentario en Twitter sobre el uso de deepfake en el documental sobre Bourdain

Los usos comerciales de réplicas digitales humanas

Las quejas al director del documental se enfocaban en que debió haber avisado de que esas tres líneas habían sido generadas mediante tecnología deepfake. Lo cierto es que dentro de la categoría de documental en cine y la no ficción en libros hay mucha variedad en cuanto a la cantidad de “hechos reales” que contienen. Tal como desgranamos en nuestra sección de Fact-Fiction, el grado de veracidad que reflejan los productos culturales varía, y no suele haber trending topics con ellos.

Helen Rosner apuntaba en el New Yorker que en la actualidad no diríamos que la voz de un hombre muerto utilizada para leer sus propias palabras sea un uso novedoso de la tecnología. Pero el hecho de que no pueda distinguirse de lo real es lo que sigue siendo inquietante.

Los deepfakes suelen ser noticia de vez en cuando por su mala utilización: en Newtral hemos contado desde su uso pornográfico sin el consentimiento de las mujeres, en el testimonio de Helen Mort, hasta los últimos engaños a alcaldes europeos, pasando por la falsa rendición de un grotesco Zelenski.

Los modelos de inteligencia artificial para crear clones de voz e imagen de personas reales están siendo utilizados de forma comercial legalmente en varios sectores, entre los que destacan los del cine y la producción audiovisual, el doblaje, la formación, el aprendizaje de idiomas, o los altavoces inteligentes, entre otros.

Un catálogo de réplicas digitales hiperrealistas

El ahorro de costes y las posibilidades que abren las réplicas digitales de humanos son una opción que algunas empresas han empezado a explorar. Hour One es una compañía israelí que utiliza comercialmente la tecnología deepfake para convertir instantáneamente contenidos basados en texto en vídeos dirigidos por un presentador.

Natalie Monbiot, su responsable de Estrategia, explica que de esta manera se sustituye el laborioso y costoso proceso tradicional de captura de vídeo, que implica cámaras, estudios y actores, lo que significa que muchas más empresas pueden acceder a ello. Hour One explica en su web que “convierten automáticamente texto en vídeo, con humanos virtuales”.

Los presentadores de los vídeos son personajes de su catálogo. La compañía llama así (characters, catalogue, en inglés) a las réplicas digitales de personas reales que han vendido sus derechos de voz e imagen para que esta empresa los comercie con otras compañías. Les pagan una comisión a través de bonos de crédito, que según Monbiot, van desde “unos pocos cientos de dólares y pueden alcanzar los miles”, basado en la demanda de ese personaje. La tarifa para una empresa que utilice hasta 130 minutos anuales de vídeo es de unos 490 euros al mes.

Algunos de los personajes del catálogo de Hour One

El catálogo de Hour One tiene unos 100 personajes («y subiendo», dice Monbiot), de distintas edades, género y características étnicas. Son copias clónicas digitales precisas de las personas, y no están alteradas con características de ficción. La empresa ficha a personas en todo el mundo. Ante la pregunta de Newtral.es por los criterios de selección, dicen que buscan cubrir la demanda de los compradores, además de intentar conseguir una representación equilibrada en su catálogo.

Quizás para evitar reacciones negativas como la que tuvieron los fans de Bourdain, la compañía aclara que “es especialmente importante mantener la transparencia cuando se construye y comercializa una tecnología emergente que todavía no entienden muchas personas o empresas”, y para ello incluye en sus contratos con terceras empresas una obligación de hacer saber a los espectadores que ese vídeo ha sido generado por medio de ordenador.

Una réplica digital vive fuera de mí

¿Qué sucede con esas réplicas de uno mismo cuando salen a reproducirse fuera de nuestro control? ¿Qué pasa si nos arrepentimos de haber dado nuestra imagen y voz a una marioneta virtual? Aunque la creación de réplicas digitales de personas parezca algo muy nuevo, los casos encajan en la regulación existente.

Samuel Parra, jurista experto en privacidad, señala que estamos ante una cesión de derechos de imagen y que la ley 1/82 de la propia imagen es perfectamente aplicable “aunque tenga 40 años”.

Si se trata de una suplantación de identidad o una estafa, es un delito y se persigue como tal. Si simplemente es que nos arrepentimos de haber otorgado derechos sobre nuestra imagen, y desde el punto de vista de un nacional español, se prevé la retirada de consentimiento en cualquier momento de la vida.

La empresa deberá retirar el material, aunque probablemente el arrepentido tenga que hacer frente a indemnizaciones por los posibles perjuicios. Otra opción que suele aplicarse que la persona “copiada” adquiera los derechos de uso sobre ese personaje para que sólo ella pueda utilizarlo.

Deepfakes en cursos de idiomas: personalización y escala

El software que ofrecen este tipo de compañías permite niveles de personalización y escala imposibles hasta ahora con el vídeo tradicional. Berlitz, la compañía especializada en enseñanza de idiomas, ha generado con el catálogo de Hour One más de 18.000 vídeos de aprendizaje dirigidos por un instructor.

En el último mes, 49 millones de usuarios hablaron con voces generadas por inteligencia artificial para aprender un idioma a través de Duolingo, la compañía de tecnología educativa. Duolingo no graba todos y cada uno de los textos que necesita meter en la app para dialogar con los alumnos.

Las voces de la app son producidas por personas reales, generalmente actores, que leen 6.000 líneas de cada idioma, y luego un software genera una réplica digital de su voz que puede leer cualquier texto que se le indique.

Esta tecnología de inteligencia artificial se llama TTS (Text to Speech), y su uso es lo que le permite personalizar los diálogos según lo que cada alumno necesita practicar de acuerdo a los errores previos.

Los deepfakes brillan en la gran pantalla

La industria audiovisual está utilizando la tecnología deepfake para solucionar problemas de distancias y costes, sobre todo a partir del parón de la pandemia. El año pasado, MegaFon, una de las operadoras de telefonía más importantes de Rusia, lanzó un anuncio protagonizado por Bruce Willis, aunque el actor nunca se trasladó a Rusia para rodarlo.

La productora firmó un contrato con él para utilizar su cara a través de imágenes tomadas de sus películas de los 80 y 90, y luego con inteligencia artificial la colocó sobre la de un doble para el anuncio. Eso sí, el Bruce Willis de MegaFon tiene un par de décadas menos de edad que el real.

Es en el terreno de los efectos especiales, el cine, donde lógicamente más hemos visto la acción de tecnologías que usan CGI (computer generated images, o imágenes generadas por ordenador) y por lo tanto donde hay ya varios ejemplos de réplicas digitales de imagen o de voz.

Disney, que había anunciado que empezaría a explorar los deepfakes para la producción, contrató el año pasado con Lucasfilm a un youtuber especialista en deepfakes. Shamook es el nombre de este joven, que había mostrado en su canal cómo mejorar películas como The Mandalorian con esta tecnología. ILM, la división de efectos especiales de Lucasfilm lo contrató como «Senior Facial Capture Artist», algo así como un Artista de Captura Facial con experiencia.

El gran desafío de todo doblaje es hacer coincidir los sonidos de un idioma con los movimientos de labios del original, que hablan en otro. Una empresa llamada Flawless usa deepfakes de imagen sólo para los labios con el objetivo de que el doblaje parezca más real. El software reemplaza los labios del actor por una réplica digital exacta que se genera de acuerdo al texto del doblaje.

It’s been a few years in the making. We’d like to thank the entire Flawless team for getting us to our full commercial launch. Special thanks to our collaborators in science and The Max Planck Institute for Infomatics in Germany.

We’re pleased to release the Flawless showreel… pic.twitter.com/QVtwMPMLXf

— Flawless (@Flawlessai) May 3, 2021

Tuit de Flawless con un vídeo que muestra cómo funciona su tecnología

La tecnología deepfake también es de ayuda cuando el problema no es que no haya imagen sino que no hay voz. ‘Top Gun: Maverick’, la secuela de la película taquillera protagonizada por Tom Cruise en los 80, incluye uno de estos pequeños milagros tecnológicos. La secuela ha sido largamente esperada por el público y una de las incógnitas giraba en torno a la vuelta de uno de los actores, Val Kilmer, que perdió la voz tras su tratamiento contra un cáncer de garganta en 2014.

[Si no has visto la película, puede haber spoilers a partir de esta línea]. Los guionistas hicieron que también su personaje, Tom «Iceman» Kazansky, tuviera cáncer, por lo que la mayor parte de su tiempo en la película se comunica con Maverick tecleando sus palabras. Sin embargo, Iceman tiene una línea emotiva de diálogo, que se logró con un modelo de voz generado por inteligencia artificial.

Réplicas digitales de voz

Kilmer, tras rodar un documental sobre su vida en 2021, se había puesto en contacto con Sonantic, una compañía de síntesis vocal, que le ayudó a crear una voz reconocible para el público a partir de sus miles de horas de grabaciones. Sonantic acaba de ser comprada por Spotify, que dice haber identificado oportunidades potenciales para las funciones de conversión de texto a voz en la plataforma.

Hace poco conocimos que Amazon usa un sistema llamado Voice Filter, una tecnología TTS que permite imitar cualquier voz humana. Muchos medios publicaron sobre la posibilidad de que Alexa, su altavoz inteligente, ofrezca por ejemplo, la réplica digital de voz de un familiar fallecido para leer un cuento a los niños a demanda.

Pero desde Amazon explican a Newtral.es que están en una etapa de investigación inicial y que sobre si esto se convertirá o no en una característica de Alexa, no tienen más que decir. En Estados Unidos, Amazon ya ha utilizado estas réplicas digitales de voz de personalidades famosas: Shaquille O’Neal, Melissa McCarthy y Samuel L. Jackson. Un portavoz de la compañía no ha querido dar información a otras preguntas de Newtral sobre la experiencia de las réplicas digitales y el feedback de los usuarios.

En España, a diferencia de la imagen, la voz no tiene una ley propia. Pero en cuanto a su uso sin consentimiento, está protegida por la normativa de protección de datos, porque es un dato personal. Parra no ve ningún problema jurídico en la posible aplicación de Alexa, porque tendría consentimiento de los herederos, los únicos que podrían decir algo en torno a los derechos de una persona muerta, que se extinguen con su fallecimiento. El abogado va un poco más allá, incluso, de una simple lectura: “para mí, más interesante sería poder mantener una conversación con tu padre o tu madre fallecida, aunque sea por teléfono simulando una llamada, me parecería espectacular”, comenta.