Sommaire
Des développeurs lancent une application pour générer de la musique à partir d’images sonores
Il y a près d’un an, les développeurs Seth Forsgren et Hayk Martiros ont lancé un projet amateur appelé Riffusion, qui pouvait générer de la musique à partir d’images sonores plutôt que d’audio. Bien que cela puisse sembler contre-intuitif, cela a fonctionné. Des millions de personnes ont essayé Riffusion et la plateforme a été citée dans des travaux de recherche publiés par des entreprises de la Big Tech, dont Meta, Google et ByteDance, la société mère de TikTok.
Riffusion passe à l’étape commerciale
Cette année, Forsgren et Martiros ont décidé de commercialiser Riffusion. La plateforme est désormais conseillée par le duo musical The Chainsmokers et a clôturé une levée de fonds de 4 millions de dollars, dirigée par Greycroft avec la participation de South Park Commons et Sky9.
Riffusion lance également une nouvelle application gratuite, une version améliorée de celle de l’année dernière, qui permet aux utilisateurs de décrire des paroles et un style musical pour générer des « riffs » qui peuvent être partagés publiquement ou avec des amis.
Un outil de création musicale accessible à tous
Le nouveau Riffusion permet à n’importe qui de créer de la musique originale à l’aide de courts extraits audio partageables. Les utilisateurs décrivent simplement les paroles et le style musical, et le modèle génère des riffs complets avec chant et illustrations personnalisées en quelques secondes. Les riffs sont une nouvelle forme d’expression et de communication qui réduit considérablement les obstacles à la création musicale.
Le pouvoir de l’IA générative pour connecter les gens
Forsgren et Martiros ont été inspirés par le potentiel des outils d’IA générative pour connecter les gens à travers la créativité. La pandémie leur a donné plus de temps à la maison, ce qui les a amenés à apprendre à jouer du piano. La musique a un grand pouvoir pour nous connecter en période d’isolement. Riffusion vise à exploiter cette technologie pour offrir un nouvel instrument amusant qui permet à chacun de créer de la musique tout au long de sa vie.
Le fonctionnement de Riffusion
Le nouveau Riffusion est alimenté par un modèle audio que l’équipe a entraîné à partir de zéro. Comme le modèle original, le nouveau modèle est affiné sur des spectrogrammes, qui sont des représentations visuelles de l’audio montrant l’amplitude des différentes fréquences au fil du temps.
Forsgren et Martiros ont créé des spectrogrammes de musique et ont étiqueté les images résultantes avec les termes pertinents, tels que « guitare blues », « piano jazz », etc. En nourrissant le modèle avec cette collection, il a appris à reconnaître certains sons et à les recréer ou à les combiner en fonction d’une description textuelle.
Pas de deepfakes musicaux
Forsgren souligne que le nouveau Riffusion n’a pas été entraîné pour reconnaître les noms d’artistes célèbres ou leurs chansons, et ne peut pas les reproduire. L’application permet aux utilisateurs de créer des messages personnels et des accroches accrocheuses, mais elle ne vise pas à produire des deepfakes. Riffusion se distingue en tant que l’un des premiers outils à permettre aux utilisateurs de générer des paroles musicales via un site web amusant et accessible.
L’avenir de Riffusion
Pour l’instant, il n’y a pas de stratégie de monétisation claire pour Riffusion. Les fondateurs se concentrent sur le développement de l’équipe et sur la création de nouveaux produits d’IA générative complémentaires. Ils envisagent également de travailler en étroite collaboration avec des artistes comme The Chainsmokers pour voir comment la technologie pourrait être utilisée dans leurs processus créatifs.
Les outils d’IA générative dans le domaine de la musique sont encore à leurs débuts, mais Riffusion se démarque en offrant une expérience ludique et accessible pour générer des paroles musicales.