Íconos de Hollywood del pasado regresan en acuerdos de clonación de voz de IA.

Las estrellas de la época dorada de Hollywood están renaciendo a través de acuerdos de clonación de voz AI de celebridades, una señal de cómo algunas de las preocupaciones del “Lejano Oeste” sobre la impersonación no autorizada de AI se están abordando mediante nuevos modelos de negocio.

ElevenLabs, una startup de tecnología de audio financiada por firmas de capital de riesgo como Andreessen Horowitz y Sequoia, ha firmado varios acuerdos con los patrimonios de actores legendarios para su herramienta IconicVoices que permite a los usuarios tener voces generadas por AI que les lean a través de una aplicación de audiolibros. Las estrellas incluyen a Burt Reynolds, Judy Garland, James Dean y Sir Laurence Olivier.

ElevenLabs, que se lanzó en 2023, crea audio para libros y artículos de noticias, personajes de videojuegos, preproducción de películas y redes sociales y publicidad. La compañía ya trabaja con editoriales como el New York Times y el Washington Post y a principios de este año, la compañía fue seleccionada por Disney para unirse a su programa de aceleración.

“Necesitas alrededor de 30 minutos de audio de alta calidad para crear un clon de voz profesional”, dijo Sam Sklar, miembro del equipo de crecimiento de ElevenLabs, y las voces se generan a partir del catálogo del celebridad. Una vez creada, se puede llamar para leer texto (artículos, PDF, ePub, boletines u otro contenido de texto). Sin embargo, la voz y el contenido no se pueden exportar, con toda la escucha en una aplicación de lectura.

Un usuario podría, por ejemplo, tener artículos narrados por James Dean dentro de la aplicación, pero los usuarios no pueden acceder a las voces para ningún contenido que no esté ya en la aplicación.

Estos tipos de acuerdos podrían ayudar a establecer los límites para un futuro en el que el contenido de voz generado por AI sea menos polémico y más un terreno controlado y curado. Google Play y Apple Books ya utilizan en cierta medida voces generadas por AI, aunque existen grandes obstáculos para recrear el ritmo, la entonación y la emoción de la voz humana.

LEAR Por qué las acciones de QuantumScape se dispararon hoy.

La industria de AI ha sido plagada por preocupaciones sobre el uso de voces de celebridades, con OpenAI dando un giro en mayo después de que la actriz Scarlett Johansson acusara a la compañía de plagiar su voz después de rechazar ofertas para licenciarla.

“Somos muy conscientes de los riesgos asociados con los medios sintéticos y tomamos muy en serio el uso seguro de nuestras herramientas”, dijo Sklar. Las salvaguardias incluyen moderación activa del contenido, responsabilidad ejecutable con prohibiciones y disposiciones especiales para salvaguardar el impacto de la voz de AI en las elecciones de 2024.

Entre la generación actual de actores, sigue existiendo una ansiedad significativa en torno al uso de AI para generar contenido de voz. Los actores de voz de videojuegos han expresado preocupaciones, y la huelga de cine y televisión del año pasado tenía raíces significativas en las ansiedades sobre el uso de AI. El uso de voces icónicas vendidas por los patrimonios es un nicho de mercado que potencialmente evita estos obstáculos, representando una nueva fuente de ingresos de AI en lugar de una fuente de ingresos perdida debido a AI.

El uso de voces de celebridades que suenan parecidas es un problema que precede a AI, como el caso de 1988 de Frito Lay utilizando un imitador de Tom Waits en sus anuncios, y otro caso de Waits en 2007, después de que Waits mismo había rechazado durante mucho tiempo ofertas de publicidad. AI presenta un camino más fácil para crear imitadores, y las demandas recientes presentadas contra la startup de AI Lovo por supuesto uso inapropiado y no compensado de actores de voz en la generación de sus voces de AI es un recordatorio de que el mundo de la generación de voz de AI es probable que siga siendo complicado y litigioso en cierta medida. (Lovo ha negado las acusaciones en la demanda y también ha señalado un modelo de participación en los ingresos que ofrece a los actores por las voces clonadas).

LEAR De los 10 jardines más hermosos del mundo, ¿adivina cuáles dos están en los Estados Unidos?

Es difícil evaluar las protecciones en lugares sin revisar el lenguaje específico de los contratos de IconicVoices, dijo Steve Cohen, socio de Pollock & Cohen que representa a actores de voz en una demanda no relacionada que alega clonación de voces sin permiso.

ElevenLabs señala la forma en que su herramienta IconicVoices obtiene permisos y cura el uso de las voces.

“Dar permiso para usar la voz de uno es uno de los conceptos básicos”, dijo Cohen. “Creo que los factores clave son el permiso, la compensación y el control.”

Nuevas leyes más claras también podrían ser un desincentivo para las personas tentadas a apropiarse indebidamente de una voz, “no para los verdaderos malhechores, sino para casos marginales”, dijo Cohen. Pero citando a Bette Davis en “Eva al desnudo”, añadió: “‘Abrochaos los cinturones, va a ser un viaje movido’.”

La forma en que suenan realistas las voces clonadas es también un problema en evolución. Muchos expertos dicen que debido a que la AI no “sabe” lo que está diciendo, la calidad del rendimiento es limitada. Sklar dijo que el último nivel de calidad de habla de ElevenLabs es indistinguible del habla humana real. “Las herramientas de texto a voz de ElevenLabs pueden entender el contexto de las palabras”, dijo.

La AI es tan buena como los modelos en los que se entrena, y los conjuntos de datos de voz de los actores se convierten en parte del proceso.

“Los modelos neuronales derivan sus capacidades de imitar/memorizar matices y patrones presentes en sus datos de entrenamiento”, dijo Nauman Dawalatabad, un asociado posdoctoral en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT con una amplia investigación en generación de voz AI. “La calidad y diversidad de los datos de entrenamiento influyen significativamente en el rendimiento del modelo.”

LEAR China promete pedir prestado más para apuntalar la economía y fortalecer los bancos.

La entrega vocal de las estrellas de cine podría agregar a la imitación y aprendizaje de AI al proporcionar el tipo de “conjuntos de datos de voz de alta calidad para entrenar y ajustar modelos grandes” que Dawalatabad dijo que es esencial para el proceso. Pero expresó reservas sobre “sonar humano” como la prueba correcta para el campo de la voz de AI, ya que eso podría reforzar una relación antagónica entre voces humanas y sintéticas.

Los actores de voz siguen divididos sobre la tecnología, algunos se niegan a considerar cualquier acuerdo, pero otros dicen que las oportunidades de clonar sus voces para una producción más rápida y económica en algunos tipos de audiolibros no se pueden ignorar. “La tecnología AI puede ayudar a los flujos de trabajo. AI no es una nueva herramienta para talentos de voz, productores y editores, muchos de los cuales la utilizan para mejorar su control de calidad en postproducción”, dijo Michele Cobb, directora ejecutiva de la Asociación de Editores de Audio, a CNBC el año pasado.

Los modelos generativos recientes han mostrado avances sustanciales en comparación con iteraciones anteriores, lo que hace cada vez más difícil distinguir entre voces falsas y auténticas solo por el oído, según Dawalatabad. La licencia de voz AI podría aliviar la carga de trabajo para los actores de voz, agregó, sin reemplazarlos, ya que “interceden en el proceso centrándose en ofrecer corrección o mejora a aspectos inexplicables como la entonación, la calidez y el énfasis, que siguen presentando desafíos.”