Découvrez deux challengers open source à ‘multimodal’ GPT-4V d’OpenAI – Une rencontre qui va tout changer !

L’avènement des modèles multimodaux en IA

GPT-4V d’OpenAI est présenté comme la prochaine grande avancée en matière d’IA : un modèle « multimodal » capable de comprendre à la fois le texte et les images. Cela présente une utilité évidente, ce qui explique pourquoi deux projets open source ont sorti des modèles similaires. Cependant, il existe également un revers de la médaille auquel il est plus difficile de faire face. Voyons comment ces modèles se comparent.

Les avantages des modèles multimodaux

Les modèles multimodaux peuvent faire des choses que les modèles strictement textuels ou basés sur l’analyse d’images ne peuvent pas faire. Par exemple, GPT-4V pourrait fournir des instructions plus faciles à montrer qu’à expliquer, comme réparer un vélo. Et parce que les modèles multimodaux peuvent non seulement identifier ce qui se trouve dans une image, mais aussi extrapoler et comprendre son contenu (du moins dans une certaine mesure), ils vont au-delà de l’évidence. Par exemple, ils peuvent suggérer des recettes qui peuvent être préparées avec les ingrédients se trouvant dans un réfrigérateur représenté sur une image.

Les risques des modèles multimodaux

Cependant, les modèles multimodaux présentent également de nouveaux risques. OpenAI a initialement retardé la sortie de GPT-4V, craignant qu’il puisse être utilisé pour identifier des personnes sur des images sans leur consentement ni leur connaissance.

Même maintenant, GPT-4V, qui n’est disponible qu’aux abonnés du plan ChatGPT Plus d’OpenAI, présente des défauts inquiétants, notamment une incapacité à reconnaître les symboles de haine et une tendance à discriminer certains sexes, certaines populations et certains types de corps. Et cela vient d’OpenAI lui-même !

Des alternatives ouvertes

Malgré ces risques, les entreprises et les développeurs indépendants continuent d’avancer en proposant des modèles multimodaux open source qui, bien qu’ils ne soient pas aussi performants que GPT-4V, peuvent accomplir bon nombre, voire la plupart, des mêmes tâches.

Plus tôt ce mois-ci, une équipe de chercheurs de l’Université de Wisconsin-Madison, de Microsoft Research et de l’Université Columbia a publié LLaVA-1.5 (pour « Large Language-and-Vision Assistant »), qui, comme GPT-4V, peut répondre à des questions sur des images en fonction de requêtes telles que « Qu’est-ce qui est inhabituel dans cette image ? » et « Quelles sont les choses dont je dois me méfier lorsque je visite cet endroit ? »

LLaVA-1.5 a suivi de près Qwen-VL, un modèle multimodal open source développé par une équipe d’Alibaba (et que cette dernière propose sous licence aux entreprises comptant plus de 100 millions d’utilisateurs actifs par mois), ainsi que des modèles de compréhension d’images et de textes de Google, tels que PaLI-X et PaLM-E. Mais LLaVA-1.5 est l’un des premiers modèles multimodaux faciles à utiliser sur du matériel grand public, comme une carte graphique avec moins de 8 Go de VRAM.

Par ailleurs, Adept, une start-up spécialisée dans la construction de modèles d’IA capables de naviguer de manière autonome dans les logiciels et sur le web, a publié un modèle multimodal texte-image similaire à GPT-4V, mais avec une particularité. Le modèle d’Adept comprend des données spécifiques aux « travailleurs du savoir », telles que des graphiques, des diagrammes et des captures d’écran, ce qui lui permet de manipuler et de raisonner sur ces données.

LLaVA-1.5 : un modèle amélioré

LLaVA-1.5 est une version améliorée de LLaVA, qui avait été publié il y a plusieurs mois par une équipe de recherche affiliée à Microsoft.

Tout comme LLaVA, LLaVA-1.5 combine un composant appelé « encodeur visuel » et Vicuna, un chatbot open source basé sur le modèle Llama de Meta, pour donner un sens aux images et au texte et comprendre leur relation.

L’équipe de recherche derrière LLaVA a généré les données d’entraînement du modèle en utilisant les versions textuelles de ChatGPT et GPT-4 d’OpenAI. Ils ont fourni à ChatGPT et GPT-4 des descriptions d’images et des métadonnées, incitant les modèles à créer des conversations, des questions, des réponses et des problèmes de raisonnement basés sur le contenu des images.

L’équipe de LLaVA-1.5 a poussé les choses encore plus loin en augmentant la résolution des images et en ajoutant des données provenant de ShareGPT, une plateforme où les utilisateurs partagent des conversations avec ChatGPT, à l’ensemble de données d’entraînement de LLaVA.

Le modèle LLaVA-1.5 le plus grand, qui contient 13 milliards de paramètres, peut être entraîné en une journée sur huit cartes graphiques Nvidia A100, pour un coût de quelques centaines de dollars en frais de serveur. (Les paramètres sont les éléments d’un modèle appris à partir de données d’entraînement historiques et définissent essentiellement les compétences du modèle pour résoudre un problème, comme générer du texte.)

Ce n’est pas bon marché, en soi. Mais compte tenu du fait que GPT-4 aurait coûté des dizaines de millions de dollars à OpenAI pour son entraînement, c’est certainement un pas dans la bonne direction. C’est-à-dire, si les performances sont suffisamment bonnes.

James Gallagher et Piotr Skalski, deux ingénieurs en logiciel de la start-up de vision par ordinateur Roboflow, ont récemment testé LLaVA-1.5 et ont détaillé les résultats dans un article de blog.

Tout d’abord, ils ont testé la capacité du modèle à détecter des objets « zéro-shot », c’est-à-dire sa capacité à identifier un objet pour lequel il n’a pas été explicitement entraîné. Ils ont demandé à LLaVA-1.5 de détecter un chien sur une image, et, de manière impressionnante, il a réussi à le faire, en précisant même les coordonnées de l’image où il a « vu » le chien.

Crédits photo : Roboflow

Gallagher et Skalski ont ensuite effectué un test plus difficile : ils ont demandé au modèle d’expliquer un mème. Les mèmes ne sont pas toujours faciles à comprendre pour les modèles (ou même pour les personnes), étant donné leurs doubles sens, leurs jeux de mots et leur subtexte. Ils constituent donc un bon indicateur des capacités d’un modèle multimodal à contextualiser et à analyser.

Gallagher et Skalski ont donné à LLaVA-1.5 une image d’une personne repassant des vêtements photoshoppée sur l’arrière d’un taxi jaune dans une ville. Ils ont demandé à LLaVA-1.5 « Qu’est-ce qui est inhabituel dans cette image ? » et le modèle a répondu : « repasser des vêtements sur l’arrière d’une voiture au milieu de la rue est à la fois peu conventionnel et potentiellement dangereux ». Difficile de contredire cette logique.

Crédits photo : Roboflow

C’est dans les tests suivants de Gallagher et Skalski que les faiblesses de LLaVA-1.5 ont commencé à se manifester.

Ils ont constaté que le modèle pouvait déterminer avec succès la valeur d’une pièce de monnaie à partir d’une image d’une seule pièce, mais qu’il avait du mal avec des images de plusieurs pièces, ce qui indique qu’il peut se perdre dans les détails des images plus « chargées ».

Crédits photo : Roboflow

LLaVA-1.5 était également incapable de reconnaître de manière fiable le texte, contrairement à GPT-4V. Lorsque Gallagher et Skalski ont donné à LLaVA-1.5 une capture d’écran d’un texte provenant d’une page web, LLaVA-1.5 a identifié une partie du texte correctement, mais a fait plusieurs erreurs, et est resté bloqué dans une boucle étrange. GPT-4V n’a pas eu de tels problèmes.

Crédits photo : Roboflow

La mauvaise performance de reconnaissance de texte pourrait en fait être une bonne nouvelle, selon votre point de vue du moins. Le programmeur Simon Willison a récemment exploré la façon dont GPT4-V peut être « trompé » pour contourner ses mesures de sécurité intégrées contre la toxicité et les biais, voire résoudre des CAPTCHA en lui présentant des images contenant du texte accompagnées d’instructions malveillantes supplémentaires.

Si LLaVA-1.5 atteignait le niveau de reconnaissance de texte de GPT4-V, il représenterait potentiellement une plus grande menace de sécurité, étant donné qu’il est disponible pour une utilisation selon les besoins des développeurs.

Eh bien, enfin, selon les besoins des développeurs. Comme il a été entraîné sur des données générées par ChatGPT, LLaVA-1.5 ne peut pas être utilisé à des fins commerciales, du moins en théorie, selon les conditions d’utilisation de ChatGPT, qui interdisent aux développeurs de l’utiliser pour entraîner des modèles commerciaux concurrents. Reste à savoir si cela empêchera quelqu’un de le faire.

En ce qui concerne les mesures de sécurité, lors de mon propre test rapide, il est rapidement apparu que LLaVA-1.5 n’est pas soumis aux mêmes filtres de toxicité que GPT-4V.

Lorsqu’on lui a demandé de donner des conseils à une femme en surpoids sur la photo, LLaVA-1.5 a suggéré que la femme devrait « gérer son poids » et « améliorer sa santé physique ». GPT-4V a refusé de répondre.

LLaVA-1.5 suggère que la personne sur la photo est en mauvaise santé uniquement sur la base de son apparence. Crédits photo : Roboflow

Adept et son modèle Fuyu-8B

Avec son premier modèle multimodal open source, Fuyu-8B, Adept ne cherche pas à concurrencer LLaVA-1.5. Tout comme LLaVA-1.5, le modèle de Fuyu-8B n’est pas autorisé pour une utilisation commerciale, car certaines de ses données d’entraînement ont été fournies à Adept selon des conditions similaires de restriction, selon David Luan, PDG d’Adept.

Au lieu de cela, avec Fuyu-8B, Adept souhaite montrer ce sur quoi il a travaillé en interne tout en sollicitant les commentaires (et les rapports de bugs) de la communauté des développeurs.

« Adept construit un copilote universel pour les travailleurs du savoir – un système dans lequel les travailleurs du savoir peuvent apprendre à Adept une tâche informatique de la même manière qu’ils intégreraient un collègue, et lui demander de l’accomplir à leur place », a déclaré Luan à nous par e-mail. « Nous avons entraîné une série de modèles multimodaux internes optimisés pour être utiles pour résoudre ces problèmes, et nous avons réalisé en cours de route que nous avions quelque chose qui serait très utile pour la communauté open source externe. Nous avons donc décidé de montrer qu’il reste performant sur les benchmarks académiques et de le rendre public afin que la communauté puisse l’utiliser pour toutes sortes de cas d’utilisation. »

Fuyu-8B est une version antérieure et plus petite d’un des modèles multimodaux internes de la start-up. Avec ses 8 milliards de paramètres, Fuyu-8B obtient de bons résultats sur les benchmarks standards de compréhension d’images, a une architecture et une procédure d’entraînement simples, et répond rapidement aux questions (environ 130 millisecondes sur 8 cartes graphiques A100), selon Adept.

Ce qui est unique dans ce modèle, c’est sa capacité à comprendre des données non structurées, explique Luan. Contrairement à LLaVA-1.5, Fuyu-8B peut localiser des éléments très spécifiques sur un écran lorsqu’on lui en donne l’instruction, extraire des détails pertinents de l’interface d’un logiciel et répondre à des questions à choix multiples sur des graphiques et des diagrammes.

Ou du moins, il en a théoriquement la capacité. Fuyu-8B ne dispose pas de ces fonctionnalités intégrées. Adept a optimisé des versions plus grandes et plus sophistiquées de Fuyu-8B pour réaliser des tâches de compréhension de documents et de logiciels pour ses produits internes.

« Notre modèle est orienté vers les données des travailleurs du savoir, telles que les sites web, les interfaces, les écrans, les graphiques, les diagrammes, etc., ainsi que les photographies naturelles générales », explique Luan. « Nous sommes ravis de pouvoir proposer un bon modèle multimodal open source avant même que des modèles comme GPT-4V et Gemini ne soient disponibles publiquement. »

J’ai demandé à Luan s’il était préoccupé par le risque de détournement de Fuyu-8B, étant donné les façons créatives dont même GPT-4V, qui est utilisé via une API et des filtres de sécurité, a été exploité jusqu’à présent. Il a soutenu que la petite taille du modèle devrait réduire les « risques sérieux en aval », mais a admis qu’Adept ne l’a pas testé sur des cas d’utilisation tels que l’extraction de CAPTCHA.

« Le modèle que nous publions est un modèle de base, c’est-à-dire qu’il n’a pas été optimisé pour inclure des mécanismes de modération ou des garde-fous contre l’injection de requêtes », a déclaré Luan. « Étant donné que les modèles multimodaux ont une si grande variété de cas d’utilisation, ces mécanismes doivent être spécifiques au cas d’utilisation particulier pour s’assurer que le modèle fait ce que le développeur souhaite. »

Est-ce le choix le plus judicieux ? Je n’en suis pas si sûr. Si Fuyu-8B présente certains des mêmes défauts que GPT-4V, cela ne présage rien de bon pour les applications construites dessus. En plus des biais, GPT-4V donne de mauvaises réponses à des questions auxquelles il avait précédemment répondu correctement, identifie mal des substances dangereuses et, comme son homologue basé sur le texte, invente des « faits ».

Mais Adept – comme un nombre croissant de développeurs semble-t-il – choisit de publier des modèles multimodaux en open source sans restrictions, en négligeant les conséquences.

Partagez votre opinion

Ce site utilise Akismet pour réduire les spams. Découvrez comment les données de vos commentaires sont traitées.