Contenido
La tecnología de clonación de voz de OpenAI debuta en primicia
Hoy debuta en primicia el motor de voz de OpenAI, una ampliación de la API de conversión de texto en voz de la empresa. En desarrollo desde hace unos dos años, Voice Engine permite a los usuarios descargar una muestra de voz de 15 segundos y generar una copia sintética de esa voz. Pero aún no hay fecha de disponibilidad pública, lo que da tiempo a la empresa para reaccionar a cómo se utiliza y explota el modelo.
"Queremos asegurarnos de que todo el mundo se siente bien con la forma en que se despliega: que entendemos los riesgos asociados a esta tecnología y que tenemos mitigaciones para ello", dijo Jeff Harris, miembro del equipo de desarrollo de OpenAI, en una entrevista con nosotros.
Formación de modelos
Según Harris, el modelo de IA generativa que impulsa Voice Engine ya se utilizaba desde hace algún tiempo.
El mismo modelo se utiliza para las funcionalidades de voz y lectura en voz alta de ChatGPT, el chatbot impulsado por la IA de OpenAI, así como para las voces predefinidas disponibles en la API de conversión de texto a voz de OpenAI. Y Spotify lo utiliza desde principios de septiembre para doblar podcasts de presentadores famosos como Lex Fridman en distintos idiomas.
Pregunté a Harris de dónde procedían los datos de entrenamiento del modelo, un tema un poco delicado. Solo me dijo que el modelo Voice Engine se había entrenado con una mezcla de datos con licencia y de dominio público.
Modelos como el que impulsa Voice Engine se entrenan a partir de un gran número de ejemplos -en este caso, grabaciones de voz- tomados generalmente de sitios públicos y conjuntos de datos disponibles en Internet. Muchos proveedores de IA generativa consideran que los datos de entrenamiento son una ventaja competitiva y, por tanto, los mantienen en secreto. Sin embargo, los detalles de los datos de entrenamiento también pueden ser fuente de disputas sobre propiedad intelectual, lo que supone otro obstáculo para su divulgación.
OpenAI ya ha sido demandada por supuesta violación de la ley de propiedad intelectual al arrastrar su IA sobre contenidos protegidos por derechos de autor, como fotos, ilustraciones, código, artículos y libros electrónicos, sin dar crédito ni remuneración a los creadores o propietarios.
OpenAI tiene acuerdos de licencia con algunos proveedores de contenidos, como Shutterstock y el editor de periódicos Axel Springer, y permite a los administradores de sitios web bloquear el rastreo de sus páginas para obtener datos de entrenamiento. OpenAI también permite a los artistas "excluirse" y eliminar sus obras de los conjuntos de datos utilizados por la empresa para entrenar sus modelos de generación de imágenes, incluido su último modelo DALL-E 3.
Pero OpenAI no ofrece ese mecanismo de exclusión para sus otros productos. Y en una reciente declaración ante la Cámara de los Lores del Reino Unido, OpenAI sugirió que era "imposible" crear modelos de IA útiles sin material protegido por derechos de autor, alegando que el uso justo -la doctrina legal que permite utilizar obras protegidas por derechos de autor para crear una creación secundaria siempre que sea transformadora- la protege en lo que respecta a la formación de modelos.
Síntesis de voz
Sorprendentemente, Voice Engine no es entrenado o refinado con datos de usuarios. Esto se debe en parte a la forma efímera en que el modelo -una combinación de un proceso de emisión y un transformador- genera el habla.
"Tomamos una pequeña muestra de audio y texto y generamos un habla realista que coincide con la voz original", explica Harris. "El audio utilizado se elimina una vez terminada la aplicación".
Según explicó, el modelo analiza simultáneamente los datos del habla que extrae y los datos del texto que se pretende leer en voz alta, generando la voz correspondiente sin necesidad de construir un modelo personalizado por hablante.
Esta tecnología no es nueva. Varias start-ups llevan años ofreciendo productos de clonación de voz, desde ElevenLabs y Replica Studios hasta Papercup, Deepdub y Respeecher. Gigantes tecnológicos como Amazon, Google y Microsoft también ofrecen estos servicios; este último es uno de los principales inversores en OpenAI.
Harris afirma que el enfoque de OpenAI ofrece una calidad de sonido general superior.
También sabemos que el precio será competitivo. Aunque OpenAI ha eliminado la información sobre precios de Voice Engine de los materiales de marketing publicados hoy, los documentos que hemos visto indican que Voice Engine cuesta 15 dólares por un millón de caracteres, o unas 162.500 palabras. Eso sería el Oliver Twist de Dickens con un poco de margen. (La opción de calidad "HD" cuesta el doble, pero, confusamente, un portavoz de OpenAI nos dijo que no había diferencia entre las voces HD y las no HD. Juzgue usted).
Esto equivale a unas 18 horas de audio, por lo que el precio es inferior a 1 dólar por hora. De hecho, es más barato que uno de los proveedores más populares de la competencia, ElevenLabs, que cobra 11 dólares por 100.000 caracteres al mes. Pero a costa de ciertas opciones de personalización.
Voice Engine no ofrece controles para ajustar el tono, el timbre o la velocidad de una voz. De hecho, sólo ofrece no o el ajuste de sintonización por el momento, aunque Harris señala que cualquier expresividad en la muestra de habla de 15 segundos se trasladará a las generaciones posteriores (por ejemplo, si hablas con un tono entusiasta, la voz sintética resultante siempre sonará entusiasta). Veremos cómo es la calidad de reproducción en comparación con otros modelos cuando se puedan comparar directamente.
La voz como mercancía
Los sueldos de los actores de doblaje en ZipRecruiter oscilan entre 12 y 79 dólares la hora, mucho más caros que Voice Engine, incluso en el nivel más bajo (los actores con agentes cobrarán mucho más por proyecto). Si la herramienta de OpenAI se popularizara, podría convertir el trabajo de doblaje en algo habitual. ¿Y qué pasa con los actores?
A la industria del doblaje no le ha pillado desprevenida: lleva tiempo enfrentándose a la amenaza existencial de la IA generativa. Cada vez se pide más a los actores de doblaje que renuncien a los derechos sobre sus voces para que los clientes puedan utilizar la IA para generar versiones sintéticas que podrían llegar a sustituirlos. El trabajo de doblaje, sobre todo el más barato y básico, corre el riesgo de desaparecer en favor de la voz generada por la IA.
Sin embargo, algunas plataformas de voz con inteligencia artificial intentan encontrar un equilibrio.
El año pasado, Replica Studios firmó un acuerdo algo controvertido con SAG-AFTRA para crear y autorizar copias de las voces de los miembros de este sindicato de artistas de los medios de comunicación. Las organizaciones afirmaron que el acuerdo establecía condiciones justas y éticas para garantizar el consentimiento de los intérpretes mientras se negociaban las condiciones para el uso de voces sintéticas en nuevas obras, incluidos los videojuegos.
ElevenLabs, por su parte, ofrece un mercado de voces sintéticas que permite a los usuarios crear una voz, verificarla y compartirla públicamente. Cuando otras personas utilizan una voz, los creadores originales reciben una compensación: una cantidad fija por cada 1.000 caracteres.
OpenAI no establece tales acuerdos sindicales ni mercados, al menos a corto plazo, y sólo exige a los usuarios que obtengan el "consentimiento explícito" de las personas cuyas voces se clonan, que hagan "declaraciones claras" indicando qué voces genera la IA y que se comprometan a no utilizar voces de menores, personas fallecidas o figuras políticas en sus creaciones.
"Seguimos muy de cerca la interacción de esta tecnología con la economía de los actores de doblaje, algo que nos intriga mucho", afirma Harris. "Creo que habrá muchas oportunidades de ampliar tu alcance como actor de doblaje gracias a este tipo de tecnología. Pero todo eso es algo que iremos aprendiendo a medida que la gente despliegue y utilice un poco esta tecnología."
Ética y deepfakes
Las aplicaciones de clonación de voz pueden ser -y han sido- mal utilizadas, más allá de la amenaza que suponen para la profesión de los actores.
El famoso foro 4chan, conocido por su contenido conspiranoico, utilizó la plataforma de ElevenLabs para compartir mensajes de odio suplantando la identidad de celebridades como Emma Watson. James Vincent, de The Verge, fue capaz de utilizar herramientas de IA para clonar voces de forma maliciosa y rápida, generando ejemplos que contenían amenazas violentas y comentarios racistas y transfóbicos. Y en Vice, el periodista Joseph Cox documentó la generación de un clon de voz lo suficientemente convincente como para engañar al sistema de autenticación de un banco.
Se teme que agentes malintencionados utilicen la clonación de voces para influir en las elecciones. Y estos temores no son infundados: en enero, una campaña telefónica utilizó una voz falsa del Presidente Biden para disuadir a los residentes de New Hampshire de votar, lo que llevó a la FCC a proponer la ilegalización de este tipo de campañas en el futuro.
Aparte de prohibir los deepfakes a nivel de políticas, ¿qué medidas, si las hay, está tomando OpenAI para evitar el abuso del motor de voz? Harris mencionó algunas.
En primer lugar, Voice Engine sólo está disponible para un grupo excepcionalmente pequeño de desarrolladores -alrededor de 10- para empezar. OpenAI está dando prioridad a los casos de uso "de bajo riesgo" y "socialmente beneficiosos", como los relacionados con la salud y la accesibilidad, así como a la experimentación con medios sintéticos "responsables".
Algunos de los primeros usuarios de Voice Engine son Age of Learning, una empresa de tecnología educativa que utiliza la herramienta para generar voces en off a partir de actores preseleccionados, y HeyGen, una aplicación de narración que utiliza Voice Engine para la traducción. Livox y Lifespan utilizan Voice Engine para crear voces para personas con problemas del habla y discapacidades, y Dimagi está desarrollando una herramienta basada en Voice Engine para dar información al personal sanitario en su lengua materna.
A continuación, los clones creados con Voice Engine llevan una marca de agua que utiliza una técnica desarrollada por OpenAI que incrusta identificadores inaudibles en las grabaciones. (Otros proveedores, como Resemble AI y Microsoft, utilizan marcas de agua similares). Harris no prometió que no hubiera forma de eludir la marca de agua, pero la describió como "a prueba de manipulaciones".
"Si hay un fragmento de audio disponible, nos resulta muy fácil examinarlo y determinar si ha sido generado por nuestro sistema y por el desarrollador que lo ha hecho", explica Harris. "De momento no es de código abierto, sino que lo tenemos en casa. Queremos ponerlo a disposición del público, pero eso obviamente conlleva riesgos adicionales en términos de exposición y rotura".
Por último, OpenAI planea proporcionar acceso a Voice Engine a los miembros de su red roja de pruebas, un grupo de expertos contratados encargados de ayudar a evaluar los riesgos asociados a los modelos de IA de la empresa y desarrollar estrategias de mitigación, con el fin de detectar usos malintencionados.
Algunos expertos sostienen que las pruebas rojas de IA no son lo bastante exhaustivas y creen que los proveedores deben desarrollar herramientas para defenderse de los daños que puede causar su IA. OpenAI no va tan lejos con Voice Engine, pero Harris afirma que el "principio fundamental" de la empresa es poner la tecnología en servicio de forma segura.
Salida general
En función de los resultados de la vista previa y de la acogida que tenga Voice Engine entre el público, OpenAI podría poner la herramienta a disposición de un mayor número de desarrolladores, pero por el momento la empresa se resiste a comprometerse a nada concreto.
Sin embargo, Harris dio un vistazo a la hoja de ruta de Voice Engine, revelando que OpenAI está probando un mecanismo de seguridad que pide a los usuarios que lean un texto generado aleatoriamente para demostrar que están presentes y son conscientes de su uso de la voz. Según Harris, esto podría dar a OpenAI la confianza necesaria para poner Voice Engine a disposición de más personas, o podría ser sólo el principio.
"Lo que nos seguirá impulsando en términos de tecnología de concordancia de voz dependerá realmente de lo que aprendamos del piloto, de los problemas de seguridad que se identifiquen y de las mitigaciones que pongamos en marcha", dijo. "No queremos que la gente se confunda entre voces artificiales y voces humanas reales".
Et sur ce dernier point, nous sommes d’accord.