Le générateur de musique alimenté par l’IA de Stability AI promet un succès fulgurant !

Stability AI se réengage dans le domaine de l’audio génératif avec Stable Audio

Il y a un an, Stability AI, la start-up londonienne à l’origine du modèle d’IA génératif d’images open source Stable Diffusion, a discrètement lancé Dance Diffusion, un modèle capable de générer des chansons et des effets sonores à partir d’une description textuelle des chansons et des effets sonores en question.

Dance Diffusion était la première incursion de Stability AI dans l’audio génératif et cela montrait un investissement important – et un intérêt aigu, semble-t-il – de la part de l’entreprise dans le domaine naissant des outils de création musicale basés sur l’IA. Mais pendant près d’un an après l’annonce de Dance Diffusion, tout est resté calme du côté de l’audio génératif, du moins en ce qui concerne les efforts de Stability.

L’organisation de recherche Harmony, financée par Stability pour créer le modèle, a cessé de mettre à jour Dance Diffusion l’année dernière. (Historiquement, Stability a fourni des ressources et des calculs à des groupes externes plutôt que de construire des modèles entièrement en interne.) Et Dance Diffusion n’a jamais bénéficié d’une version plus aboutie ; même aujourd’hui, son installation nécessite de travailler directement avec le code source, car il n’y a pas d’interface utilisateur à proprement parler.

Maintenant, sous la pression des investisseurs pour transformer plus de 100 millions de dollars de capital en produits générant des revenus, Stability se réengage massivement dans l’audio.

Aujourd’hui marque le lancement de Stable Audio, un outil que Stability affirme être le premier capable de créer de la musique « de haute qualité » à 44,1 kHz pour un usage commercial grâce à une technique appelée diffusion latente. Entraîné sur les métadonnées audio ainsi que sur les durées et les heures de début des fichiers audio, Stability affirme que le modèle sous-jacent d’Audio Diffusion, d’environ 1,2 milliard de paramètres, offre un plus grand contrôle sur le contenu et la durée de l’audio synthétisé que les outils de musique générative précédemment publiés.

« Stability AI a pour mission de libérer le potentiel de l’humanité en construisant des modèles d’IA fondamentaux pour différents types de contenus ou ‘modalités' », a déclaré Ed Newton-Rex, vice-président de l’audio chez Stability AI, dans une interview par e-mail avec Toukiela. « Nous avons commencé avec Stable Diffusion et nous avons élargi notre champ d’action pour inclure les langues, le code et maintenant la musique. Nous pensons que l’avenir de l’IA générative est multimodal. »

Stable Audio : un nouvel outil pour la génération de musique

Stable Audio n’a pas été développé par Harmony – ou du moins pas exclusivement par Harmony. L’équipe audio de Stability, formalisée en avril, a créé un nouveau modèle inspiré de Dance Diffusion pour soutenir Stable Audio, que Harmony a ensuite entraîné.

Harmony est maintenant le bras de recherche en musique de l’IA de Stability, déclare Newton-Rex, qui a rejoint Stability l’année dernière après avoir travaillé chez TikTok et Snap.

« Dance Diffusion générait de courts extraits audio aléatoires à partir d’une palette de sons limitée, et l’utilisateur devait affiner lui-même le modèle s’il voulait avoir un certain contrôle. Stable Audio peut générer de l’audio plus long, et l’utilisateur peut guider la génération en utilisant une description textuelle et en définissant la durée souhaitée », explique Newton-Rex. « Certains descriptifs fonctionnent très bien, comme l’EDM et la musique plus rythmée, ainsi que la musique d’ambiance, et certains génèrent de l’audio un peu plus ‘décalé’, comme de la musique plus mélodique, classique et jazz. »

Stability a refusé nos demandes répétées pour essayer Stable Audio avant son lancement. Pour le moment, et peut-être à jamais, Stable Audio ne peut être utilisé que via une application web, qui n’était pas disponible avant ce matin. Dans un geste qui ne manquera pas d’irriter les partisans de sa mission de recherche ouverte, Stability n’a pas annoncé de plans pour rendre le modèle derrière Stable Audio open source.

Mais Stability a accepté de nous envoyer des échantillons montrant ce que le modèle peut accomplir dans différents genres, principalement l’EDM, en utilisant de courts descriptifs.

Bien qu’ils aient pu être soigneusement sélectionnés, les échantillons sonnent – du moins aux oreilles de ce journaliste – plus cohérents, mélodiques et, pour ne pas dire musicaux, que bon nombre des « chansons » générées par les modèles de génération audio jusqu’à présent. (Voir Meta’s AudioGen et MusicGen, Riffusion, Jukebox d’OpenAI, MusicLM de Google, etc.) Sont-ils parfaits ? Clairement pas – ils manquent de créativité, par exemple. Mais si j’entendais la piste de techno ambiante ci-dessous jouer dans le hall d’un hôtel, je ne supposerais probablement pas que c’est une IA qui l’a créée.

Stable Audio n’est pas le premier modèle à utiliser la diffusion latente dans la génération de musique, mais il est l’un des plus aboutis en termes de musicalité et de fidélité.

La technique de la diffusion latente

Pour entraîner Stable Audio, Stability AI s’est associée à la bibliothèque de musique commerciale AudioSparx, qui a fourni une collection de chansons – environ 800 000 au total – de son catalogue composé principalement d’artistes indépendants. Des mesures ont été prises pour filtrer les pistes vocales, selon Newton-Rex – probablement pour éviter les questions éthiques et de droits d’auteur liées aux voix « deepfakées ».

Étonnamment, Stability ne filtre pas les descriptifs qui pourraient lui attirer des ennuis juridiques. Alors que des outils comme MusicLM de Google affichent un message d’erreur si vous tapez quelque chose comme « dans le style de Barry Manilow », Stable Audio ne le fait pas – du moins pas pour le moment.

Interrogé directement sur la possibilité d’utiliser Stable Audio pour générer des chansons dans le style d’artistes populaires comme Harry Styles ou The Eagles, Newton-Rex a déclaré que l’outil est limité par la musique de ses données d’entraînement, qui n’inclut pas la musique des grandes maisons de disques. C’est peut-être le cas. Mais une recherche rapide dans la bibliothèque d’AudioSparx fait apparaître des milliers de chansons qui sont « dans le style » d’artistes tels que The Beatles, AC/DC, etc., ce qui semble être une échappatoire à mon avis.

Stable Audio est principalement conçu pour générer de la musique instrumentale, donc la désinformation et les deepfakes vocaux ne devraient pas poser de problème, explique Newton-Rex. « Cependant, nous travaillons activement à lutter contre les risques émergents de l’IA en mettant en place des normes d’authenticité du contenu et un marquage dans nos modèles d’imagerie, de sorte que les utilisateurs et les plates-formes puissent identifier le contenu assisté par IA généré par nos services hébergés… Nous prévoyons de mettre en place ce type de marquage dans nos modèles audio également. »

De plus en plus, des morceaux faits maison utilisant l’IA générative pour créer des sons familiers qui peuvent être considérés comme authentiques, ou du moins suffisamment proches, deviennent viraux. Le mois dernier, une communauté Discord dédiée à l’audio génératif a sorti tout un album en utilisant une copie de la voix générée par IA de Travis Scott, ce qui a attiré la colère du label qui le représente.

Les maisons de disques ont rapidement signalé des morceaux générés par l’IA aux partenaires de streaming comme Spotify et SoundCloud, invoquant des problèmes de propriété intellectuelle – et elles ont généralement remporté ces batailles. Mais il reste encore un manque de clarté sur la question de savoir si la musique « deepfake » viole les droits d’auteur des artistes, des labels et des autres détenteurs de droits.

Et malheureusement pour les artistes, il faudra du temps avant que la clarté ne soit établie. Un juge fédéral a récemment statué que l’art généré par l’IA ne peut pas être protégé par le droit d’auteur. Mais le bureau du droit d’auteur des États-Unis n’a pas encore pris de position ferme, commençant seulement récemment à solliciter l’avis du public sur les questions de droit d’auteur liées à l’IA.

Stability estime que les utilisateurs de Stable Audio peuvent monétiser – mais pas nécessairement protéger par le droit d’auteur – leurs œuvres, ce qui est un pas en deçà de ce que les autres fournisseurs d’IA générative ont proposé. La semaine dernière, Microsoft a annoncé qu’il étendrait l’indemnisation pour protéger les clients commerciaux de ses outils d’IA lorsqu’ils sont poursuivis pour violation du droit d’auteur sur la base des sorties de ces outils.

Stable Audio : des tarifs et des droits d’auteur

Les clients de Stability AI qui paient 11,99 $ par mois pour le niveau Pro de Stable Audio peuvent générer 500 morceaux commercialisables d’une durée maximale de 90 secondes par mois. Les utilisateurs de la version gratuite sont limités à 20 morceaux non commercialisables d’une durée de 20 secondes chacun par mois. Et les utilisateurs qui souhaitent utiliser de la musique générée par IA à partir de Stable Audio dans des applications, des logiciels ou des sites web avec plus de 100 000 utilisateurs actifs par mois doivent souscrire un abonnement entreprise.

Dans l’accord de conditions d’utilisation de Stable Audio, Stability précise qu’il se réserve le droit d’utiliser à la fois les descriptifs et les chansons des clients, ainsi que des données telles que leur activité sur l’outil, à des fins diverses, notamment pour développer de futurs modèles et services. Les clients s’engagent à indemniser Stability en cas de réclamation pour atteinte aux droits de propriété intellectuelle concernant les chansons créées avec Stable Audio.

Mais vous vous demandez peut-être si les créateurs de l’audio sur lequel Stable Audio a été formé toucheront ne serait-ce qu’une petite partie de ces frais mensuels ? Après tout, Stability, comme plusieurs de ses concurrents en IA générative, s’est attiré des ennuis en formant des modèles sur le travail d’artistes sans les rémunérer ou les informer.

Comme pour les modèles d’images plus récents de Stability, Stable Audio dispose d’un mécanisme de désinscription – bien que la responsabilité repose principalement sur AudioSparx. Les artistes avaient la possibilité de retirer leur travail de l’ensemble de données d’entraînement pour la première version de Stable Audio, et environ 10 % d’entre eux ont choisi de le faire, selon Lee Johnson, EVP d’AudioSparx.

« Nous soutenons la décision de nos artistes de participer ou non, et nous sommes heureux de leur offrir cette flexibilité », a déclaré Johnson par e-mail.

L’accord de Stability avec AudioSparx prévoit un partage des revenus entre les deux entreprises, AudioSparx permettant aux musiciens de la plateforme de partager les bénéfices générés par Stable Audio s’ils ont choisi de participer à la formation initiale ou décident d’aider à former les versions futures de Stable Audio. C’est similaire au modèle adopté par Adobe et Shutterstock avec leurs outils d’IA générative, mais Stability n’a pas précisé les détails de l’accord, laissant ainsi dans l’ombre le montant que les artistes peuvent attendre d’être rémunérés pour leurs contributions.

Les artistes ont des raisons d’être méfiants, étant donné la propension d’Emad Mostaque, PDG de Stability, à exagérer, à faire des affirmations douteuses et à gérer de manière inappropriée l’entreprise.

En avril, Semafor a rapporté que Stability AI brûlait rapidement sa trésorerie, ce qui a entraîné une recherche de cadres pour augmenter les ventes. Selon Forbes, l’entreprise a plusieurs fois retardé ou carrément refusé de payer les salaires et les impôts sur les salaires, ce qui a poussé AWS – que Stability utilise pour calculer ses modèles – à menacer de révoquer l’accès de Stability à ses instances GPU.

Stability AI a récemment levé 25 millions de dollars grâce à une obligation convertible (c’est-à-dire une dette qui se convertit en actions), portant son total à plus de 125 millions de dollars. Mais elle n’a pas conclu de nouveaux financements à une valorisation plus élevée ; la start-up était valorisée à 1 milliard de dollars lors de sa dernière levée de fonds. Stability aurait l’intention de multiplier cette valorisation par quatre dans les prochains mois, malgré des revenus obstinément faibles et un taux de combustion élevé.

Stable Audio permettra-t-il de redresser la situation de l’entreprise ? Peut-être. Mais compte tenu des obstacles que Stability doit surmonter, il est sûr de dire que c’est un peu risqué.

Share your opinion

This site uses Akismet to reduce spam. Learn how your comment data is processed.