Le génie derrière Snap AI défie OpenAI avec Higgsfield, le puissant générateur vidéo Sora!

Sommaire

Une nouvelle plateforme de création vidéo basée sur l’IA est lancée pour les créateurs de tous types

OpenAI a captivé le monde de la technologie il y a quelques mois avec un modèle d’IA génératif, Sora, qui transforme les descriptions de scènes en vidéos originales – pas besoin de caméras ni d’équipes de tournage. Mais Sora a été jusqu’à présent étroitement contrôlé, et l’entreprise semble le destiner aux créatifs bien financés comme les réalisateurs d’Hollywood – pas nécessairement aux amateurs ou aux spécialistes du marketing de petite envergure.

Higgsfield AI : une plateforme de création et d’édition vidéo alimentée par l’IA

Alex Mashrabov, l’ancien responsable de l’IA générative chez Snap, a vu une opportunité. Il a donc lancé Higgsfield AI, une plateforme de création et d’édition vidéo alimentée par l’IA conçue pour des applications plus personnalisées.

Alimenté par un modèle personnalisé de conversion de texte en vidéo, la première application d’Higgsfield, Diffuse, peut générer des vidéos à partir de rien ou prendre un selfie et générer un clip mettant en scène cette personne.

« Notre public cible est constitué de créateurs de tous types », a déclaré Mashrabov dans une interview accordée à Toukiela. « Des utilisateurs réguliers qui veulent créer du contenu amusant avec leurs amis aux créateurs de contenu social qui souhaitent essayer un nouveau format de contenu, en passant par les spécialistes du marketing des médias sociaux qui veulent que leur marque se démarque. »

Une approche mobile et sociale pour se démarquer

Mashrabov est venu chez Snap par le biais d’AI Factory, sa précédente startup, que Snap a acquise en 2020 pour 166 millions de dollars. Chez Snap, Mashrabov a contribué à la création de produits tels que les effets AR et les filtres pour Snapchat, y compris Cameos, ainsi qu’au chabot controversé de MyAI sur Snapchat.

Higgsfield, que Mashrabov a co-lancé il y a plusieurs mois avec Yerzat Dulat, un chercheur en IA spécialisé dans la vidéo générative, offre un ensemble sélectionné de clips pré-générés, un outil pour télécharger des supports de référence (images et vidéos) et un éditeur de consignes qui permet aux utilisateurs de décrire les personnages, les actions et les scènes qu’ils souhaitent représenter. Grâce à Diffuse, les utilisateurs peuvent s’insérer directement dans une scène générée par l’IA, ou faire en sorte que leur avatar numérique imite des mouvements de danse capturés dans d’autres vidéos.

« Notre modèle prend en charge des mouvements et des expressions très réalistes », a déclaré Mashrabov. « Nous sommes les pionniers des ‘world models’ pour les consommateurs, ce qui nous permet de construire une génération et une édition vidéo de premier ordre avec un excellent niveau de contrôle. »

La concurrence des startups de vidéo générative

Higgsfield n’est pas la seule startup de vidéo générative à rivaliser avec OpenAI. Runway a été l’une des premières sur le marché, et ses outils continuent de s’améliorer. Il y a aussi Haiper, qui bénéficie du soutien de deux anciens de DeepMind et de plus de 13 millions de dollars de financement.

Mashrabov soutient que Diffuse se démarquera grâce à sa stratégie de mise sur le marché axée sur le mobile et les médias sociaux.

« En privilégiant les applications iOS et Android plutôt que les flux de travail sur ordinateur, nous permettons aux créateurs de produire du contenu captivant pour les médias sociaux à tout moment et n’importe où », a déclaré Mashrabov. « En effet, en nous appuyant sur le mobile, nous pouvons privilégier la facilité d’utilisation et les fonctionnalités conviviales pour les consommateurs dès le premier jour. »

Une approche agile et peu coûteuse

Higgsfield fonctionne également de manière agile. Mashrabov affirme que les modèles génératifs à la base de la plateforme ont été développés par une équipe de 16 personnes en moins de neuf mois et entraînés sur un cluster de 32 GPU (32 GPU peuvent sembler beaucoup, mais compte tenu du fait qu’OpenAI en utilise des dizaines de milliers, ce n’est pas vraiment beaucoup). Et Higgsfield n’a levé que 8 millions de dollars à ce jour, la majeure partie provenant d’une récente tranche de financement de démarrage dirigée par Menlo Ventures.

Pour rester en avance sur les concurrents, Higgsfield prévoit d’utiliser les fonds de démarrage pour construire un meilleur éditeur vidéo qui permettra aux utilisateurs de modifier les personnages et les objets dans les vidéos, et pour former des modèles de génération vidéo plus puissants spécifiquement pour les cas d’utilisation des médias sociaux. En fait, Mashrabov voit les médias sociaux – et le marketing sur les médias sociaux – comme le créneau principal de rentabilité d’Higgsfield.

Bien que Diffuse soit actuellement gratuit, Mashrabov envisage un avenir où les spécialistes du marketing paieront des frais ou un abonnement pour des fonctionnalités premium, ou pour des campagnes volumineuses ou à grande échelle.

« Nous pensons que Higgsfield offre un niveau incroyable de réalisme et de cas d’utilisation de production de contenu pour les spécialistes du marketing des médias sociaux », a-t-il déclaré. « Nous entendons constamment des directeurs marketing et des directeurs créatifs qu’ils doivent optimiser les budgets de production de contenu et raccourcir les délais tout en fournissant un contenu percutant. Nous pensons donc que les solutions d’IA générative vidéo seront une solution essentielle pour les aider à y parvenir. »

Les défis pour les startups d’IA générative

Il est bien établi que les modèles d’IA générative comme celui qui alimente Diffuse peuvent « régurgiter » des données d’entraînement. Pourquoi est-ce problématique ? Eh bien, si les modèles ont été formés sur du contenu protégé par des droits d’auteur sans autorisation ou sans accord de licence, les utilisateurs de ces modèles pourraient involontairement générer une œuvre en violation du droit d’auteur – les exposant ainsi à des poursuites judiciaires.

Mashrabov n’a pas révélé la source des données d’entraînement d’Higgsfield (à part le fait qu’elles proviennent de « plusieurs sources publiquement disponibles ») et n’a pas non plus précisé si Higgsfield conserverait les données des utilisateurs pour former de futurs modèles, ce qui pourrait ne pas convenir à certains clients commerciaux. Il a toutefois noté que les utilisateurs de Diffuse peuvent demander que leurs données soient supprimées à tout moment via l’application.

Les plates-formes de « clonage » numérique comme Higgsfield sont également propices aux abus, comme l’a montré la propagation des deepfakes sur les médias sociaux ces derniers mois.

Dans le même ordre d’idées, Higgsfield pourrait faciliter le vol du contenu des créateurs. Par exemple, il suffit de télécharger une vidéo de la chorégraphie de quelqu’un pour générer une vidéo de soi-même réalisant cette même chorégraphie.

J’ai demandé à Mashrabov quelles mesures de protection ou de sauvegarde Higgsfield pourrait utiliser pour tenter de prévenir les abus, et – bien qu’il n’ait pas donné de détails précis – il a affirmé que la plate-forme utilise une combinaison de modération automatisée et manuelle.

« Nous avons décidé de déployer progressivement le produit et de le tester d’abord sur des marchés sélectionnés, afin de pouvoir surveiller les risques de mauvaise utilisation et faire évoluer le produit si nécessaire », a ajouté Mashrabov.

Nous devrons attendre pour voir comment cela fonctionne en pratique.