Inhaltsverzeichnis
OpenAI présente Sora, un modèle d’IA génératif qui crée des vidéos à partir de texte
OpenAI a dévoilé aujourd’hui Sora, un modèle d’IA génératif qui crée des vidéos à partir de texte. Selon OpenAI, Sora peut générer des scènes semblables à des films en 1080p avec plusieurs personnages, différents types de mouvements et des détails de fond, à partir d’une description brève ou détaillée ou d’une image fixe.
Extension de clips vidéo existants
Sora peut également « étendre » des extraits vidéo existants en faisant de son mieux pour combler les détails manquants.
Une compréhension profonde du langage
Selon OpenAI, Sora a une compréhension profonde du langage, ce qui lui permet d’interpréter avec précision les instructions et de générer des personnages captivants qui expriment des émotions vives. Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’instruction, mais aussi comment ces éléments existent dans le monde physique.
Des démonstrations impressionnantes
Les échantillons sélectionnés du modèle Sora semblent plutôt impressionnants, du moins par rapport aux autres technologies de conversion texte-vidéo que nous avons pu voir. Sora peut générer des vidéos dans une gamme de styles (par exemple, photoréaliste, animé, noir et blanc) d’une durée allant jusqu’à une minute, ce qui est beaucoup plus long que la plupart des modèles de conversion texte-vidéo. De plus, ces vidéos maintiennent une cohérence raisonnable, ce qui signifie qu’elles ne succombent pas toujours à ce que j’aime appeler « l’étrangeté de l’IA », comme des objets se déplaçant dans des directions physiquement impossibles.
Limitations et précautions
Il convient de noter que certains des clips vidéo de Sora avec un sujet humanoïde, comme un robot debout devant un paysage urbain ou une personne marchant sur un chemin enneigé, ont une qualité de jeu vidéo, peut-être parce qu’il ne se passe pas grand-chose en arrière-plan. De plus, l’étrangeté de l’IA se manifeste dans de nombreux clips, comme des voitures qui roulent dans une direction, puis qui font subitement marche arrière, ou des bras qui se fondent dans une couverture.
Une version de recherche
OpenAI présente Sora comme une version de recherche et ne divulgue que peu d’informations sur les données utilisées pour former le modèle. La société travaille également avec des experts pour détecter d’éventuelles exploitations du modèle et construit des outils permettant de savoir si une vidéo a été générée par Sora. Si OpenAI décide de transformer le modèle en un produit accessible au public, elle veillera à inclure des métadonnées de provenance dans les sorties générées.
Engagement envers la sécurité et la collaboration
OpenAI affirme qu’elle travaillera en collaboration avec des décideurs politiques, des éducateurs et des artistes du monde entier pour comprendre leurs préoccupations et identifier les cas d’utilisation positifs de cette nouvelle technologie. La société reconnaît qu’elle ne peut pas prédire toutes les façons bénéfiques dont les gens utiliseront sa technologie, ni toutes les façons dont elle pourrait être utilisée à mauvais escient. C’est pourquoi elle estime que l’apprentissage à partir de l’utilisation réelle est un élément essentiel de la création et de la diffusion de systèmes d’IA de plus en plus sûrs au fil du temps.