Les fameux Transformers propulsent Sora d'OpenAI et révolutionnent la GenAI ! Découvrez leur incroyable diffusion.

Contenido

Une avancée remarquable dans le domaine de la GenAI

OpenAI’s Sora, qui peut générer des vidéos et des environnements 3D interactifs à la volée, est une démonstration remarquable de la pointe de la GenAI – une véritable étape importante.

L’architecture du modèle d’IA appelée diffusion transformer

Mais curieusement, l’une des innovations qui y ont conduit, une architecture de modèle d’IA connue sous le nom de diffusion transformer, est arrivée sur la scène de la recherche en IA il y a des années.

Le potentiel de transformation de la diffusion transformer

Le diffusion transformer, qui alimente également le générateur d’images le plus récent de la startup d’IA Stability AI, Stable Diffusion 3.0, semble prêt à transformer le domaine de la GenAI en permettant aux modèles de GenAI de s’étendre au-delà de ce qui était auparavant possible.

L’origine du diffusion transformer

Saining Xie, professeur d’informatique à NYU, a commencé le projet de recherche qui a engendré le diffusion transformer en juin 2022. Avec William Peebles, son stagiaire au laboratoire de recherche en IA de Meta et maintenant le co-responsable de Sora chez OpenAI, Xie a combiné deux concepts de l’apprentissage automatique – la diffusion et le transformer – pour créer le diffusion transformer.

Le processus de diffusion

La plupart des générateurs de médias alimentés par l’IA modernes, y compris DALL-E 3 d’OpenAI, reposent sur un processus appelé diffusion pour produire des images, des vidéos, des discours, de la musique, des maillages 3D, des œuvres d’art et plus encore.

Ce n’est pas l’idée la plus intuitive, mais en gros, du bruit est ajouté lentement à un média – disons une image – jusqu’à ce qu’il soit méconnaissable. Cela est répété pour construire un ensemble de données de médias bruyants. Lorsqu’un modèle de diffusion s’entraîne sur cela, il apprend comment soustraire progressivement le bruit, se rapprochant étape par étape d’une sortie cible de média (par exemple, une nouvelle image).

Les avantages des transformers

Les transformers sont l’architecture de choix pour les tâches de raisonnement complexe, alimentant des modèles tels que GPT-4, Gemini et ChatGPT. Ils ont plusieurs caractéristiques uniques, mais de loin la caractéristique déterminante des transformers est leur « mécanisme d’attention ». Pour chaque élément de données d’entrée (dans le cas de la diffusion, du bruit d’image), les transformers pondèrent la pertinence de chaque autre entrée (autre bruit dans une image) et en tirent des informations pour générer la sortie (une estimation du bruit de l’image).

Non seulement le mécanisme d’attention rend les transformers plus simples que les autres architectures de modèle, mais il rend également l’architecture parallélisable. En d’autres termes, des modèles de transformer de plus en plus grands peuvent être entraînés avec des augmentations significatives mais pas inatteignables de la puissance de calcul.

La révolution des transformers dans la diffusion

« Ce que les transformers apportent au processus de diffusion équivaut à une mise à niveau du moteur », a déclaré Xie à Toukiela dans une interview par courrier électronique. « L’introduction des transformers… marque un bond significatif en termes de scalabilité et d’efficacité. Cela est particulièrement évident dans des modèles comme Sora, qui bénéficient de l’entraînement sur de vastes volumes de données vidéo et exploitent de nombreux paramètres de modèle pour mettre en valeur le potentiel de transformation des transformers lorsqu’ils sont appliqués à grande échelle. »

La transition vers les diffusion transformers

Alors, étant donné que l’idée des diffusion transformers existe depuis un certain temps, pourquoi a-t-il fallu des années avant que des projets comme Sora et Stable Diffusion commencent à les utiliser ? Xie pense que l’importance d’avoir un modèle de base scalable n’a été mise en évidence que récemment.

« L’équipe de Sora a vraiment fait des efforts considérables pour montrer tout ce que l’on peut faire avec cette approche à grande échelle », dit-il. « Ils ont quasiment établi que les U-Nets sont obsolètes et que les transformers sont les modèles de diffusion à adopter désormais. »

Les avantages des diffusion transformers

Les diffusion transformers devraient être un remplacement simple pour les modèles de diffusion existants, affirme Xie, que les modèles génèrent des images, des vidéos, de l’audio ou toute autre forme de média. Le processus actuel de formation des diffusion transformers introduit potentiellement certaines inefficacités et pertes de performance, mais Xie pense que cela peut être résolu à long terme.

« La principale conclusion est assez simple : oubliez les U-Nets et passez aux transformers, car ils sont plus rapides, fonctionnent mieux et sont plus scalables », dit-il. « Je m’intéresse à l’intégration des domaines de la compréhension et de la création de contenu dans le cadre des diffusion transformers. Pour le moment, ce sont comme deux mondes différents – l’un pour la compréhension et l’autre pour la création. J’envisage un avenir où ces aspects seront intégrés, et je crois que pour réaliser cette intégration, il faut standardiser les architectures sous-jacentes, les transformers étant un candidat idéal pour cet objectif. »

Le futur des diffusion transformers

Si Sora et Stable Diffusion 3.0 sont un aperçu de ce à quoi s’attendre avec les diffusion transformers, je dirais que nous sommes en route pour une aventure passionnante.

Les fameux Transformers propulsent Sora d’OpenAI et révolutionnent la GenAI ! Découvrez leur incroyable diffusion.