Sommaire
La technologie de clonage vocal d’OpenAI fait ses débuts en prévisualisation
Aujourd’hui marque les débuts en prévisualisation de Voice Engine d’OpenAI, une extension de l’API de synthèse vocale existante de l’entreprise. En développement depuis environ deux ans, Voice Engine permet aux utilisateurs de télécharger un échantillon vocal de 15 secondes pour générer une copie synthétique de cette voix. Mais il n’y a pas encore de date de disponibilité publique, ce qui donne à l’entreprise le temps de réagir à la façon dont le modèle est utilisé et exploité.
« Nous voulons nous assurer que tout le monde se sent bien quant à la façon dont il est déployé – que nous comprenons les risques liés à cette technologie et que nous avons mis en place des mesures d’atténuation à cet égard », a déclaré Jeff Harris, membre de l’équipe de développement chez OpenAI, dans une interview accordée à nous.
Formation du modèle
Le modèle d’IA génératif qui alimente Voice Engine était déjà utilisé depuis un certain temps, selon Harris.
Le même modèle est utilisé pour les fonctionnalités vocales et de lecture à voix haute de ChatGPT, le chatbot alimenté par l’IA d’OpenAI, ainsi que pour les voix prédéfinies disponibles dans l’API de synthèse vocale d’OpenAI. Et Spotify l’utilise depuis début septembre pour doubler des podcasts d’animateurs célèbres comme Lex Fridman dans différentes langues.
J’ai demandé à Harris d’où provenaient les données d’entraînement du modèle – un sujet un peu délicat. Il a seulement déclaré que le modèle Voice Engine avait été entraîné sur un mélange de données sous licence et disponibles publiquement.
Les modèles comme celui qui alimente Voice Engine sont entraînés sur un nombre énorme d’exemples – dans ce cas, des enregistrements vocaux – généralement issus de sites publics et de jeux de données disponibles sur le web. De nombreux fournisseurs d’IA générative considèrent les données d’entraînement comme un avantage concurrentiel et les gardent donc secrètes. Cependant, les détails sur les données d’entraînement peuvent également être source de litiges liés à la propriété intellectuelle, ce qui constitue un autre obstacle à la divulgation de ces informations.
OpenAI fait déjà l’objet de poursuites pour avoir prétendument violé la loi sur la propriété intellectuelle en entraînant son IA sur du contenu protégé par des droits d’auteur, notamment des photos, des œuvres d’art, du code, des articles et des livres électroniques, sans donner de crédit ou de rémunération aux créateurs ou aux propriétaires.
OpenAI a conclu des accords de licence avec certains fournisseurs de contenu, tels que Shutterstock et l’éditeur de presse Axel Springer, et permet aux webmasters de bloquer son crawler web pour empêcher le scraping de leur site à des fins de collecte de données d’entraînement. OpenAI permet également aux artistes de « se retirer » et de supprimer leur travail des jeux de données utilisés par l’entreprise pour entraîner ses modèles de génération d’images, y compris son dernier modèle DALL-E 3.
Mais OpenAI ne propose pas un tel mécanisme de désinscription pour ses autres produits. Et dans une récente déclaration à la Chambre des Lords du Royaume-Uni, OpenAI a suggéré qu’il était « impossible » de créer des modèles d’IA utiles sans matériel protégé par des droits d’auteur, affirmant que l’utilisation équitable – la doctrine juridique qui permet l’utilisation d’œuvres protégées par des droits d’auteur pour créer une création secondaire à condition qu’elle soit transformative – la protège en ce qui concerne la formation du modèle.
Synthèse vocale
Étonnamment, Voice Engine n’est pas entraîné ou affiné sur des données utilisateur. Cela est dû en partie à la manière éphémère dont le modèle – une combinaison d’un processus de diffusion et d’un transformateur – génère la parole.
« Nous prenons un petit échantillon audio et un texte et nous générons une parole réaliste qui correspond à la voix originale », a déclaré Harris. « L’audio utilisé est supprimé une fois la demande terminée. »
Comme il l’a expliqué, le modèle analyse simultanément les données vocales qu’il extrait et les données textuelles destinées à être lues à voix haute, générant une voix correspondante sans avoir besoin de construire un modèle personnalisé par locuteur.
Cette technologie n’est pas nouvelle. Un certain nombre de start-up proposent depuis des années des produits de clonage vocal, d’ElevenLabs à Replica Studios en passant par Papercup, Deepdub et Respeecher. Les géants de la technologie tels qu’Amazon, Google et Microsoft proposent également ces services – ce dernier étant d’ailleurs un investisseur majeur d’OpenAI.
Harris affirme que l’approche d’OpenAI offre une qualité sonore globalement supérieure.
Nous savons également que le prix sera compétitif. Bien qu’OpenAI ait supprimé les informations sur les prix de Voice Engine des documents marketing publiés aujourd’hui, les documents consultés par nous indiquent que Voice Engine coûte 15 dollars pour un million de caractères, soit environ 162 500 mots. Cela correspondrait à « Oliver Twist » de Dickens avec un peu de marge. (Une option de qualité « HD » coûte le double, mais de manière confuse, un porte-parole d’OpenAI a déclaré à nous qu’il n’y avait aucune différence entre les voix HD et non HD. À vous de juger.)
Cela équivaut à environ 18 heures d’audio, ce qui rend le prix inférieur à 1 dollar par heure. C’est en effet moins cher que ce que propose l’un des fournisseurs concurrents les plus populaires, ElevenLabs, qui facture 11 dollars pour 100 000 caractères par mois. Mais cela se fait au détriment de certaines options de personnalisation.
Voice Engine ne propose pas de contrôles pour ajuster le ton, la hauteur ou le débit d’une voix. En fait, il n’offre aucun bouton ou réglage de réglage pour le moment, bien que Harris note que toute expressivité dans l’échantillon vocal de 15 secondes se poursuivra dans les générations suivantes (par exemple, si vous parlez avec un ton enthousiaste, la voix synthétique résultante aura toujours l’air enthousiaste). Nous verrons comment la qualité de la lecture se compare à celle d’autres modèles lorsqu’ils pourront être comparés directement.
La voix comme marchandise
Les salaires des acteurs de doublage sur ZipRecruiter varient de 12 à 79 dollars de l’heure – beaucoup plus cher que Voice Engine, même au niveau le plus bas (les acteurs avec des agents demanderont un prix beaucoup plus élevé par projet). Si l’outil d’OpenAI devait se populariser, il pourrait rendre le travail vocal banal. Alors, qu’en est-il des acteurs ?
L’industrie du talent n’a pas été prise au dépourvu – elle est confrontée depuis un certain temps à la menace existentielle de l’IA générative. De plus en plus, on demande aux acteurs de doublage de renoncer à leurs droits sur leur voix afin que les clients puissent utiliser l’IA pour générer des versions synthétiques qui pourraient éventuellement les remplacer. Le travail vocal – en particulier le travail bon marché et d’entrée de gamme – risque d’être éliminé au profit de la parole générée par l’IA.
Certaines plates-formes vocales d’IA tentent cependant de trouver un équilibre.
L’année dernière, Replica Studios a signé un accord quelque peu controversé avec SAG-AFTRA pour créer et autoriser des copies des voix des membres de ce syndicat d’artistes des médias. Les organisations ont déclaré que cet arrangement établissait des conditions équitables et éthiques pour garantir le consentement des interprètes tout en négociant les termes d’utilisation des voix synthétiques dans de nouvelles œuvres, y compris les jeux vidéo.
ElevenLabs, quant à lui, propose une place de marché pour les voix synthétiques qui permet aux utilisateurs de créer une voix, de la vérifier et de la partager publiquement. Lorsque d’autres personnes utilisent une voix, les créateurs originaux reçoivent une compensation – un montant fixe par tranche de 1 000 caractères.
OpenAI n’établit pas de tels accords syndicaux ou de places de marché, du moins à court terme, et exige seulement que les utilisateurs obtiennent un « consentement explicite » des personnes dont les voix sont clonées, fassent des « divulgations claires » indiquant quelles voix sont générées par l’IA et acceptent de ne pas utiliser les voix de mineurs, de personnes décédées ou de personnalités politiques dans leurs créations.
« La façon dont cela interagit avec l’économie des acteurs de doublage est quelque chose que nous suivons de près et qui nous intrigue vraiment », a déclaré Harris. « Je pense qu’il y aura beaucoup d’opportunités pour étendre votre portée en tant qu’acteur de doublage grâce à ce type de technologie. Mais tout cela est quelque chose que nous allons apprendre lorsque les gens déploieront et utiliseront un peu cette technologie. »
Éthique et deepfakes
Les applications de clonage vocal peuvent être – et ont été – utilisées de manière abusive, au-delà de la menace que représente pour la profession des acteurs.
Le célèbre forum 4chan, connu pour son contenu conspirationniste, a utilisé la plateforme d’ElevenLabs pour partager des messages haineux imitant des célébrités comme Emma Watson. James Vincent de The Verge a pu utiliser des outils d’IA pour cloner des voix de manière malveillante et rapide, générant des exemples contenant des menaces violentes, des remarques racistes et transphobes. Et chez Vice, le journaliste Joseph Cox a documenté la génération d’un clone vocal suffisamment convaincant pour tromper le système d’authentification d’une banque.
On craint que des acteurs malveillants ne cherchent à influencer des élections grâce au clonage vocal. Et ces craintes ne sont pas infondées : en janvier, une campagne téléphonique a utilisé une fausse voix du président Biden pour dissuader les habitants du New Hampshire de voter – ce qui a incité la FCC à proposer de rendre de telles campagnes illégales à l’avenir.
Outre l’interdiction des deepfakes au niveau des politiques, quelles mesures OpenAI prend-elle, le cas échéant, pour éviter les abus de Voice Engine ? Harris en a mentionné quelques-unes.
Tout d’abord, Voice Engine n’est disponible que pour un groupe de développeurs exceptionnellement restreint – environ 10 – pour commencer. OpenAI donne la priorité aux cas d’utilisation à « faible risque » et « socialement bénéfique », tels que ceux dans les domaines de la santé et de l’accessibilité, en plus d’expérimenter les médias synthétiques « responsables ».
Quelques adopteurs précoces de Voice Engine sont Age of Learning, une entreprise edtech qui utilise l’outil pour générer des voix off à partir d’acteurs déjà choisis, et HeyGen, une application de narration qui exploite Voice Engine pour la traduction. Livox et Lifespan utilisent Voice Engine pour créer des voix pour les personnes ayant des troubles de la parole et des handicaps, et Dimagi développe un outil basé sur Voice Engine pour donner des commentaires aux travailleurs de la santé dans leur langue maternelle.
Ensuite, les clones créés avec Voice Engine sont marqués avec un filigrane en utilisant une technique développée par OpenAI qui intègre des identifiants inaudibles dans les enregistrements. (D’autres fournisseurs, dont Resemble AI et Microsoft, utilisent des filigranes similaires.) Harris n’a pas promis qu’il n’y avait aucun moyen de contourner le filigrane, mais l’a décrit comme « résistant aux manipulations ».
« Si un extrait audio est disponible, il est très facile pour nous de regarder cet extrait et de déterminer s’il a été généré par notre système et par le développeur qui a effectué cette génération », a déclaré Harris. « Pour l’instant, il ne s’agit pas d’un logiciel open source – nous l’avons en interne pour le moment. Nous sommes curieux de le rendre publiquement disponible, mais cela comporte évidemment des risques supplémentaires en termes d’exposition et de bris. »
Enfin, OpenAI prévoit de fournir aux membres de son réseau de test red, un groupe d’experts contractuels chargés d’aider à évaluer les risques liés aux modèles d’IA de l’entreprise et à élaborer des stratégies d’atténuation, un accès à Voice Engine afin de détecter les utilisations malveillantes.
Certains experts soutiennent que les tests red de l’IA ne sont pas suffisamment exhaustifs et estiment que les fournisseurs doivent développer des outils pour se défendre contre les dommages que leur IA peut causer. OpenAI ne va pas aussi loin avec Voice Engine, mais Harris affirme que le « principe fondamental » de l’entreprise est de mettre la technologie en service en toute sécurité.
Sortie générale
En fonction des résultats de la prévisualisation et de la réception du public à l’égard de Voice Engine, OpenAI pourrait rendre l’outil disponible à un plus large éventail de développeurs, mais pour l’instant, l’entreprise est réticente à s’engager sur quoi que ce soit de concret.
Cependant, Harris a donné un aperçu de la feuille de route de Voice Engine, révélant qu’OpenAI teste un mécanisme de sécurité qui demande aux utilisateurs de lire un texte généré de manière aléatoire pour prouver qu’ils sont présents et conscients de l’utilisation de leur voix. Cela pourrait donner à OpenAI la confiance nécessaire pour rendre Voice Engine accessible à davantage de personnes, a déclaré Harris – ou cela pourrait n’être que le début.
« Ce qui va continuer à nous pousser à avancer en termes de technologie de correspondance vocale dépendra vraiment de ce que nous aurons appris du pilote, des problèmes de sécurité qui auront été identifiés et des mesures d’atténuation que nous aurons mises en place », a-t-il déclaré. « Nous ne voulons pas que les gens soient confus entre les voix artificielles et les voix humaines réelles. »
Et sur ce dernier point, nous sommes d’accord.