Sommaire
Une startup AI annonce le lancement d’un modèle d’IA pour générer des vidéos
Alors que les problèmes au sein de OpenAI font la une des médias, les startups AI continuent de travailler sur leurs feuilles de route et de développer leurs produits. C’est le cas de Stability AI, qui vient d’annoncer le lancement de Stable Video Diffusion, un modèle d’IA qui génère des vidéos en animant des images existantes. Ce modèle, basé sur le modèle texte-image existant de Stability, est l’un des rares modèles de génération de vidéos disponibles en open source, et même commercialement.
Un aperçu de recherche
Pour le moment, Stable Video Diffusion est présenté par Stability comme un « aperçu de recherche ». Les utilisateurs qui souhaitent utiliser le modèle doivent accepter certaines conditions d’utilisation, qui précisent les applications prévues du modèle (par exemple, « outils éducatifs ou créatifs », « processus de conception et autres processus artistiques », etc.) et celles qui ne sont pas prévues (« représentations factuelles ou fidèles de personnes ou d’événements »).
Cependant, étant donné que d’autres aperçus de recherche AI ont souvent été détournés à des fins illégales, il est possible que Stable Video Diffusion se retrouve rapidement sur le Dark Web. Si tel est le cas, on peut craindre des abus potentiels liés à la création de deepfakes non consensuels, par exemple.
Deux modèles de génération de vidéos
Stable Video Diffusion se présente sous la forme de deux modèles : SVD et SVD-XT. Le premier, SVD, transforme des images fixes en vidéos de 576×1024 pixels avec 14 images. SVD-XT utilise la même architecture, mais augmente le nombre d’images à 24. Les deux modèles peuvent générer des vidéos à une cadence allant de trois à trente images par seconde.
Limitations et perspectives
Il est important de noter que Stable Video Diffusion présente certaines limitations. Selon Stability, les modèles ne peuvent pas générer de vidéos sans mouvement ou de panoramiques lents de la caméra, ne peuvent pas être contrôlés par du texte, ne peuvent pas afficher du texte de manière lisible et ne peuvent pas générer de manière cohérente des visages et des personnes. Cependant, Stability souligne que les modèles sont très extensibles et peuvent être adaptés à des cas d’utilisation tels que la génération de vues à 360 degrés d’objets.
En ce qui concerne l’avenir de Stable Video Diffusion, Stability prévoit de développer « une variété » de modèles qui « s’appuient sur et étendent » SVD et SVD-XT, ainsi qu’un outil « texte-vers-vidéo » qui permettra d’utiliser des prompts textuels avec les modèles sur le web. L’objectif ultime semble être la commercialisation, avec des applications potentielles dans la publicité, l’éducation, le divertissement, etc.
Difficultés financières et départs
Stability AI a récemment levé 25 millions de dollars grâce à une note convertible, portant son financement total à plus de 125 millions de dollars. Cependant, la startup n’a pas réussi à obtenir un financement supplémentaire à une valorisation plus élevée ; sa dernière valorisation était de 1 milliard de dollars. Malgré des revenus faibles et des dépenses élevées, Stability espère quadrupler sa valorisation dans les prochains mois.
La startup a également connu le départ d’Ed Newton-Rex, ancien vice-président de l’audio chez Stability, qui a joué un rôle clé dans le lancement de l’outil de génération de musique Stable Audio. Newton-Rex a déclaré publiquement qu’il avait quitté Stability en raison d’un désaccord sur les droits d’auteur et sur la manière dont les données protégées par le droit d’auteur devraient être utilisées pour former les modèles d’IA.