{"id":7057,"date":"2023-10-21T15:45:17","date_gmt":"2023-10-21T13:45:17","guid":{"rendered":"https:\/\/toukiela.com\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/"},"modified":"2023-10-21T15:45:18","modified_gmt":"2023-10-21T13:45:18","slug":"decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer","status":"publish","type":"post","link":"https:\/\/toukiela.com\/en\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/","title":{"rendered":"D\u00e9couvrez deux challengers open source \u00e0 &lsquo;multimodal&rsquo; GPT-4V d&rsquo;OpenAI &#8211; Une rencontre qui va tout changer !"},"content":{"rendered":"<p><em><\/em><\/p>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_82_2 counter-hierarchy ez-toc-counter ez-toc-grey ez-toc-container-direction\">\n<p class=\"ez-toc-title\" style=\"cursor:inherit\">Contents<\/p>\n<label for=\"ez-toc-cssicon-toggle-item-69f1e2006f08f\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Toggle<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #999;color:#999\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #999;color:#999\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-69f1e2006f08f\"  aria-label=\"Toggle\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/toukiela.com\/en\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/#Lavenement_des_modeles_multimodaux_en_IA\" >L\u2019av\u00e8nement des mod\u00e8les multimodaux en IA<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/toukiela.com\/en\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/#Les_avantages_des_modeles_multimodaux\" >Les avantages des mod\u00e8les multimodaux<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/toukiela.com\/en\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/#Les_risques_des_modeles_multimodaux\" >Les risques des mod\u00e8les multimodaux<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/toukiela.com\/en\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/#Des_alternatives_ouvertes\" >Des alternatives ouvertes<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/toukiela.com\/en\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/#LLaVA-15_un_modele_ameliore\" >LLaVA-1.5 : un mod\u00e8le am\u00e9lior\u00e9<\/a><\/li><li class='ez-toc-page-1 ez-toc-heading-level-2'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/toukiela.com\/en\/decouvrez-deux-challengers-open-source-a-multimodal-gpt-4v-dopenai-une-rencontre-qui-va-tout-changer\/#Adept_et_son_modele_Fuyu-8B\" >Adept et son mod\u00e8le Fuyu-8B<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"Lavenement_des_modeles_multimodaux_en_IA\"><\/span>L\u2019av\u00e8nement des mod\u00e8les multimodaux en IA<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>GPT-4V d\u2019OpenAI est pr\u00e9sent\u00e9 comme la prochaine grande avanc\u00e9e en mati\u00e8re d\u2019IA : un mod\u00e8le \u00ab\u00a0multimodal\u00a0\u00bb capable de comprendre \u00e0 la fois le texte et les images. Cela pr\u00e9sente une utilit\u00e9 \u00e9vidente, ce qui explique pourquoi deux projets open source ont sorti des mod\u00e8les similaires. Cependant, il existe \u00e9galement un revers de la m\u00e9daille auquel il est plus difficile de faire face. Voyons comment ces mod\u00e8les se comparent.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Les_avantages_des_modeles_multimodaux\"><\/span>Les avantages des mod\u00e8les multimodaux<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Les mod\u00e8les multimodaux peuvent faire des choses que les mod\u00e8les strictement textuels ou bas\u00e9s sur l\u2019analyse d\u2019images ne peuvent pas faire. Par exemple, GPT-4V pourrait fournir des instructions plus faciles \u00e0 montrer qu\u2019\u00e0 expliquer, comme r\u00e9parer un v\u00e9lo. Et parce que les mod\u00e8les multimodaux peuvent non seulement identifier ce qui se trouve dans une image, mais aussi extrapoler et comprendre son contenu (du moins dans une certaine mesure), ils vont au-del\u00e0 de l\u2019\u00e9vidence. Par exemple, ils peuvent sugg\u00e9rer des recettes qui peuvent \u00eatre pr\u00e9par\u00e9es avec les ingr\u00e9dients se trouvant dans un r\u00e9frig\u00e9rateur repr\u00e9sent\u00e9 sur une image.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Les_risques_des_modeles_multimodaux\"><\/span>Les risques des mod\u00e8les multimodaux<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Cependant, les mod\u00e8les multimodaux pr\u00e9sentent \u00e9galement de nouveaux risques. OpenAI a initialement retard\u00e9 la sortie de GPT-4V, craignant qu\u2019il puisse \u00eatre utilis\u00e9 pour identifier des personnes sur des images sans leur consentement ni leur connaissance.<\/p>\n<p>M\u00eame maintenant, GPT-4V, qui n\u2019est disponible qu\u2019aux abonn\u00e9s du plan ChatGPT Plus d\u2019OpenAI, pr\u00e9sente des d\u00e9fauts inqui\u00e9tants, notamment une incapacit\u00e9 \u00e0 reconna\u00eetre les symboles de haine et une tendance \u00e0 discriminer certains sexes, certaines populations et certains types de corps. Et cela vient d\u2019OpenAI lui-m\u00eame !<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Des_alternatives_ouvertes\"><\/span>Des alternatives ouvertes<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Malgr\u00e9 ces risques, les entreprises et les d\u00e9veloppeurs ind\u00e9pendants continuent d\u2019avancer en proposant des mod\u00e8les multimodaux open source qui, bien qu\u2019ils ne soient pas aussi performants que GPT-4V, peuvent accomplir bon nombre, voire la plupart, des m\u00eames t\u00e2ches.<\/p>\n<p>Plus t\u00f4t ce mois-ci, une \u00e9quipe de chercheurs de l\u2019Universit\u00e9 de Wisconsin-Madison, de Microsoft Research et de l\u2019Universit\u00e9 Columbia a publi\u00e9 LLaVA-1.5 (pour \u00ab\u00a0Large Language-and-Vision Assistant\u00a0\u00bb), qui, comme GPT-4V, peut r\u00e9pondre \u00e0 des questions sur des images en fonction de requ\u00eates telles que \u00ab\u00a0Qu\u2019est-ce qui est inhabituel dans cette image ?\u00a0\u00bb et \u00ab\u00a0Quelles sont les choses dont je dois me m\u00e9fier lorsque je visite cet endroit ?\u00a0\u00bb<\/p>\n<p>LLaVA-1.5 a suivi de pr\u00e8s Qwen-VL, un mod\u00e8le multimodal open source d\u00e9velopp\u00e9 par une \u00e9quipe d\u2019Alibaba (et que cette derni\u00e8re propose sous licence aux entreprises comptant plus de 100 millions d\u2019utilisateurs actifs par mois), ainsi que des mod\u00e8les de compr\u00e9hension d\u2019images et de textes de Google, tels que PaLI-X et PaLM-E. Mais LLaVA-1.5 est l\u2019un des premiers mod\u00e8les multimodaux faciles \u00e0 utiliser sur du mat\u00e9riel grand public, comme une carte graphique avec moins de 8 Go de VRAM.<\/p>\n<p>Par ailleurs, Adept, une start-up sp\u00e9cialis\u00e9e dans la construction de mod\u00e8les d\u2019IA capables de naviguer de mani\u00e8re autonome dans les logiciels et sur le web, a publi\u00e9 un mod\u00e8le multimodal texte-image similaire \u00e0 GPT-4V, mais avec une particularit\u00e9. Le mod\u00e8le d\u2019Adept comprend des donn\u00e9es sp\u00e9cifiques aux \u00ab\u00a0travailleurs du savoir\u00a0\u00bb, telles que des graphiques, des diagrammes et des captures d\u2019\u00e9cran, ce qui lui permet de manipuler et de raisonner sur ces donn\u00e9es.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"LLaVA-15_un_modele_ameliore\"><\/span>LLaVA-1.5 : un mod\u00e8le am\u00e9lior\u00e9<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>LLaVA-1.5 est une version am\u00e9lior\u00e9e de LLaVA, qui avait \u00e9t\u00e9 publi\u00e9 il y a plusieurs mois par une \u00e9quipe de recherche affili\u00e9e \u00e0 Microsoft.<\/p>\n<p>Tout comme LLaVA, LLaVA-1.5 combine un composant appel\u00e9 \u00ab\u00a0encodeur visuel\u00a0\u00bb et Vicuna, un chatbot open source bas\u00e9 sur le mod\u00e8le Llama de Meta, pour donner un sens aux images et au texte et comprendre leur relation.<\/p>\n<p>L\u2019\u00e9quipe de recherche derri\u00e8re LLaVA a g\u00e9n\u00e9r\u00e9 les donn\u00e9es d\u2019entra\u00eenement du mod\u00e8le en utilisant les versions textuelles de ChatGPT et GPT-4 d\u2019OpenAI. Ils ont fourni \u00e0 ChatGPT et GPT-4 des descriptions d\u2019images et des m\u00e9tadonn\u00e9es, incitant les mod\u00e8les \u00e0 cr\u00e9er des conversations, des questions, des r\u00e9ponses et des probl\u00e8mes de raisonnement bas\u00e9s sur le contenu des images.<\/p>\n<p>L\u2019\u00e9quipe de LLaVA-1.5 a pouss\u00e9 les choses encore plus loin en augmentant la r\u00e9solution des images et en ajoutant des donn\u00e9es provenant de ShareGPT, une plateforme o\u00f9 les utilisateurs partagent des conversations avec ChatGPT, \u00e0 l\u2019ensemble de donn\u00e9es d\u2019entra\u00eenement de LLaVA.<\/p>\n<p>Le mod\u00e8le LLaVA-1.5 le plus grand, qui contient 13 milliards de param\u00e8tres, peut \u00eatre entra\u00een\u00e9 en une journ\u00e9e sur huit cartes graphiques Nvidia A100, pour un co\u00fbt de quelques centaines de dollars en frais de serveur. (Les param\u00e8tres sont les \u00e9l\u00e9ments d\u2019un mod\u00e8le appris \u00e0 partir de donn\u00e9es d\u2019entra\u00eenement historiques et d\u00e9finissent essentiellement les comp\u00e9tences du mod\u00e8le pour r\u00e9soudre un probl\u00e8me, comme g\u00e9n\u00e9rer du texte.)<\/p>\n<p>Ce n\u2019est pas bon march\u00e9, en soi. Mais compte tenu du fait que GPT-4 aurait co\u00fbt\u00e9 des dizaines de millions de dollars \u00e0 OpenAI pour son entra\u00eenement, c\u2019est certainement un pas dans la bonne direction. C\u2019est-\u00e0-dire, si les performances sont suffisamment bonnes.<\/p>\n<p>James Gallagher et Piotr Skalski, deux ing\u00e9nieurs en logiciel de la start-up de vision par ordinateur Roboflow, ont r\u00e9cemment test\u00e9 LLaVA-1.5 et ont d\u00e9taill\u00e9 les r\u00e9sultats dans un article de blog.<\/p>\n<p>Tout d\u2019abord, ils ont test\u00e9 la capacit\u00e9 du mod\u00e8le \u00e0 d\u00e9tecter des objets \u00ab\u00a0z\u00e9ro-shot\u00a0\u00bb, c\u2019est-\u00e0-dire sa capacit\u00e9 \u00e0 identifier un objet pour lequel il n\u2019a pas \u00e9t\u00e9 explicitement entra\u00een\u00e9. Ils ont demand\u00e9 \u00e0 LLaVA-1.5 de d\u00e9tecter un chien sur une image, et, de mani\u00e8re impressionnante, il a r\u00e9ussi \u00e0 le faire, en pr\u00e9cisant m\u00eame les coordonn\u00e9es de l\u2019image o\u00f9 il a \u00ab\u00a0vu\u00a0\u00bb le chien.<\/p>\n<div id=\"attachment_2615853\" style=\"width: 1034px\" class=\"wp-caption aligncenter\">\n<p id=\"caption-attachment-2615853\" class=\"wp-caption-text\"><strong>Cr\u00e9dits photo :<\/strong> Roboflow<\/p>\n<\/div>\n<p>Gallagher et Skalski ont ensuite effectu\u00e9 un test plus difficile : ils ont demand\u00e9 au mod\u00e8le d\u2019expliquer un m\u00e8me. Les m\u00e8mes ne sont pas toujours faciles \u00e0 comprendre pour les mod\u00e8les (ou m\u00eame pour les personnes), \u00e9tant donn\u00e9 leurs doubles sens, leurs jeux de mots et leur subtexte. Ils constituent donc un bon indicateur des capacit\u00e9s d\u2019un mod\u00e8le multimodal \u00e0 contextualiser et \u00e0 analyser.<\/p>\n<p>Gallagher et Skalski ont donn\u00e9 \u00e0 LLaVA-1.5 une image d\u2019une personne repassant des v\u00eatements photoshopp\u00e9e sur l\u2019arri\u00e8re d\u2019un taxi jaune dans une ville. Ils ont demand\u00e9 \u00e0 LLaVA-1.5 \u00ab\u00a0Qu\u2019est-ce qui est inhabituel dans cette image ?\u00a0\u00bb et le mod\u00e8le a r\u00e9pondu : \u00ab\u00a0repasser des v\u00eatements sur l\u2019arri\u00e8re d\u2019une voiture au milieu de la rue est \u00e0 la fois peu conventionnel et potentiellement dangereux\u00a0\u00bb. Difficile de contredire cette logique.<\/p>\n<div id=\"attachment_2615852\" style=\"width: 1034px\" class=\"wp-caption aligncenter\">\n<p id=\"caption-attachment-2615852\" class=\"wp-caption-text\"><strong>Cr\u00e9dits photo :<\/strong> Roboflow<\/p>\n<\/div>\n<p>C\u2019est dans les tests suivants de Gallagher et Skalski que les faiblesses de LLaVA-1.5 ont commenc\u00e9 \u00e0 se manifester.<\/p>\n<p>Ils ont constat\u00e9 que le mod\u00e8le pouvait d\u00e9terminer avec succ\u00e8s la valeur d\u2019une pi\u00e8ce de monnaie \u00e0 partir d\u2019une image d\u2019une seule pi\u00e8ce, mais qu\u2019il avait du mal avec des images de plusieurs pi\u00e8ces, ce qui indique qu\u2019il peut se perdre dans les d\u00e9tails des images plus \u00ab\u00a0charg\u00e9es\u00a0\u00bb.<\/p>\n<div id=\"attachment_2615851\" style=\"width: 1034px\" class=\"wp-caption aligncenter\">\n<p id=\"caption-attachment-2615851\" class=\"wp-caption-text\"><strong>Cr\u00e9dits photo :<\/strong> Roboflow<\/p>\n<\/div>\n<p>LLaVA-1.5 \u00e9tait \u00e9galement incapable de reconna\u00eetre de mani\u00e8re fiable le texte, contrairement \u00e0 GPT-4V. Lorsque Gallagher et Skalski ont donn\u00e9 \u00e0 LLaVA-1.5 une capture d\u2019\u00e9cran d\u2019un texte provenant d\u2019une page web, LLaVA-1.5 a identifi\u00e9 une partie du texte correctement, mais a fait plusieurs erreurs, et est rest\u00e9 bloqu\u00e9 dans une boucle \u00e9trange. GPT-4V n\u2019a pas eu de tels probl\u00e8mes.<\/p>\n<div id=\"attachment_2615850\" style=\"width: 1034px\" class=\"wp-caption aligncenter\">\n<p id=\"caption-attachment-2615850\" class=\"wp-caption-text\"><strong>Cr\u00e9dits photo :<\/strong> Roboflow<\/p>\n<\/div>\n<p>La mauvaise performance de reconnaissance de texte pourrait en fait \u00eatre une bonne nouvelle, selon votre point de vue du moins. Le programmeur Simon Willison a r\u00e9cemment explor\u00e9 la fa\u00e7on dont GPT4-V peut \u00eatre \u00ab\u00a0tromp\u00e9\u00a0\u00bb pour contourner ses mesures de s\u00e9curit\u00e9 int\u00e9gr\u00e9es contre la toxicit\u00e9 et les biais, voire r\u00e9soudre des CAPTCHA en lui pr\u00e9sentant des images contenant du texte accompagn\u00e9es d\u2019instructions malveillantes suppl\u00e9mentaires.<\/p>\n<p>Si LLaVA-1.5 atteignait le niveau de reconnaissance de texte de GPT4-V, il repr\u00e9senterait potentiellement une plus grande menace de s\u00e9curit\u00e9, \u00e9tant donn\u00e9 qu\u2019il est disponible pour une utilisation selon les besoins des d\u00e9veloppeurs.<\/p>\n<p>Eh bien, enfin, selon les besoins des d\u00e9veloppeurs. Comme il a \u00e9t\u00e9 entra\u00een\u00e9 sur des donn\u00e9es g\u00e9n\u00e9r\u00e9es par ChatGPT, LLaVA-1.5 ne peut pas \u00eatre utilis\u00e9 \u00e0 des fins commerciales, du moins en th\u00e9orie, selon les conditions d\u2019utilisation de ChatGPT, qui interdisent aux d\u00e9veloppeurs de l\u2019utiliser pour entra\u00eener des mod\u00e8les commerciaux concurrents. Reste \u00e0 savoir si cela emp\u00eachera quelqu\u2019un de le faire.<\/p>\n<p>En ce qui concerne les mesures de s\u00e9curit\u00e9, lors de mon propre test rapide, il est rapidement apparu que LLaVA-1.5 n\u2019est pas soumis aux m\u00eames filtres de toxicit\u00e9 que GPT-4V.<\/p>\n<p>Lorsqu\u2019on lui a demand\u00e9 de donner des conseils \u00e0 une femme en surpoids sur la photo, LLaVA-1.5 a sugg\u00e9r\u00e9 que la femme devrait \u00ab\u00a0g\u00e9rer son poids\u00a0\u00bb et \u00ab\u00a0am\u00e9liorer sa sant\u00e9 physique\u00a0\u00bb. GPT-4V a refus\u00e9 de r\u00e9pondre.<\/p>\n<div id=\"attachment_2616130\" style=\"width: 1034px\" class=\"wp-caption aligncenter\">\n<p id=\"caption-attachment-2616130\" class=\"wp-caption-text\">LLaVA-1.5 sugg\u00e8re que la personne sur la photo est en mauvaise sant\u00e9 uniquement sur la base de son apparence. <strong>Cr\u00e9dits photo :<\/strong> Roboflow<\/p>\n<\/div>\n<h2><span class=\"ez-toc-section\" id=\"Adept_et_son_modele_Fuyu-8B\"><\/span>Adept et son mod\u00e8le Fuyu-8B<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Avec son premier mod\u00e8le multimodal open source, Fuyu-8B, Adept ne cherche pas \u00e0 concurrencer LLaVA-1.5. Tout comme LLaVA-1.5, le mod\u00e8le de Fuyu-8B n\u2019est pas autoris\u00e9 pour une utilisation commerciale, car certaines de ses donn\u00e9es d\u2019entra\u00eenement ont \u00e9t\u00e9 fournies \u00e0 Adept selon des conditions similaires de restriction, selon David Luan, PDG d\u2019Adept.<\/p>\n<p>Au lieu de cela, avec Fuyu-8B, Adept souhaite montrer ce sur quoi il a travaill\u00e9 en interne tout en sollicitant les commentaires (et les rapports de bugs) de la communaut\u00e9 des d\u00e9veloppeurs.<\/p>\n<p>\u00ab\u00a0Adept construit un copilote universel pour les travailleurs du savoir \u2013 un syst\u00e8me dans lequel les travailleurs du savoir peuvent apprendre \u00e0 Adept une t\u00e2che informatique de la m\u00eame mani\u00e8re qu\u2019ils int\u00e9greraient un coll\u00e8gue, et lui demander de l\u2019accomplir \u00e0 leur place\u00a0\u00bb, a d\u00e9clar\u00e9 Luan \u00e0 nous par e-mail. \u00ab\u00a0Nous avons entra\u00een\u00e9 une s\u00e9rie de mod\u00e8les multimodaux internes optimis\u00e9s pour \u00eatre utiles pour r\u00e9soudre ces probl\u00e8mes, et nous avons r\u00e9alis\u00e9 en cours de route que nous avions quelque chose qui serait tr\u00e8s utile pour la communaut\u00e9 open source externe. Nous avons donc d\u00e9cid\u00e9 de montrer qu\u2019il reste performant sur les benchmarks acad\u00e9miques et de le rendre public afin que la communaut\u00e9 puisse l\u2019utiliser pour toutes sortes de cas d\u2019utilisation.\u00a0\u00bb<\/p>\n<p>Fuyu-8B est une version ant\u00e9rieure et plus petite d\u2019un des mod\u00e8les multimodaux internes de la start-up. Avec ses 8 milliards de param\u00e8tres, Fuyu-8B obtient de bons r\u00e9sultats sur les benchmarks standards de compr\u00e9hension d\u2019images, a une architecture et une proc\u00e9dure d\u2019entra\u00eenement simples, et r\u00e9pond rapidement aux questions (environ 130 millisecondes sur 8 cartes graphiques A100), selon Adept.<\/p>\n<p>Ce qui est unique dans ce mod\u00e8le, c\u2019est sa capacit\u00e9 \u00e0 comprendre des donn\u00e9es non structur\u00e9es, explique Luan. Contrairement \u00e0 LLaVA-1.5, Fuyu-8B peut localiser des \u00e9l\u00e9ments tr\u00e8s sp\u00e9cifiques sur un \u00e9cran lorsqu\u2019on lui en donne l\u2019instruction, extraire des d\u00e9tails pertinents de l\u2019interface d\u2019un logiciel et r\u00e9pondre \u00e0 des questions \u00e0 choix multiples sur des graphiques et des diagrammes.<\/p>\n<p>Ou du moins, il en a th\u00e9oriquement la capacit\u00e9. Fuyu-8B ne dispose pas de ces fonctionnalit\u00e9s int\u00e9gr\u00e9es. Adept a optimis\u00e9 des versions plus grandes et plus sophistiqu\u00e9es de Fuyu-8B pour r\u00e9aliser des t\u00e2ches de compr\u00e9hension de documents et de logiciels pour ses produits internes.<\/p>\n<p>\u00ab\u00a0Notre mod\u00e8le est orient\u00e9 vers les donn\u00e9es des travailleurs du savoir, telles que les sites web, les interfaces, les \u00e9crans, les graphiques, les diagrammes, etc., ainsi que les photographies naturelles g\u00e9n\u00e9rales\u00a0\u00bb, explique Luan. \u00ab\u00a0Nous sommes ravis de pouvoir proposer un bon mod\u00e8le multimodal open source avant m\u00eame que des mod\u00e8les comme GPT-4V et Gemini ne soient disponibles publiquement.\u00a0\u00bb<\/p>\n<p>J\u2019ai demand\u00e9 \u00e0 Luan s\u2019il \u00e9tait pr\u00e9occup\u00e9 par le risque de d\u00e9tournement de Fuyu-8B, \u00e9tant donn\u00e9 les fa\u00e7ons cr\u00e9atives dont m\u00eame GPT-4V, qui est utilis\u00e9 via une API et des filtres de s\u00e9curit\u00e9, a \u00e9t\u00e9 exploit\u00e9 jusqu\u2019\u00e0 pr\u00e9sent. Il a soutenu que la petite taille du mod\u00e8le devrait r\u00e9duire les \u00ab\u00a0risques s\u00e9rieux en aval\u00a0\u00bb, mais a admis qu\u2019Adept ne l\u2019a pas test\u00e9 sur des cas d\u2019utilisation tels que l\u2019extraction de CAPTCHA.<\/p>\n<p>\u00ab\u00a0Le mod\u00e8le que nous publions est un mod\u00e8le de base, c\u2019est-\u00e0-dire qu\u2019il n\u2019a pas \u00e9t\u00e9 optimis\u00e9 pour inclure des m\u00e9canismes de mod\u00e9ration ou des garde-fous contre l\u2019injection de requ\u00eates\u00a0\u00bb, a d\u00e9clar\u00e9 Luan. \u00ab\u00a0\u00c9tant donn\u00e9 que les mod\u00e8les multimodaux ont une si grande vari\u00e9t\u00e9 de cas d\u2019utilisation, ces m\u00e9canismes doivent \u00eatre sp\u00e9cifiques au cas d\u2019utilisation particulier pour s\u2019assurer que le mod\u00e8le fait ce que le d\u00e9veloppeur souhaite.\u00a0\u00bb<\/p>\n<p>Est-ce le choix le plus judicieux ? Je n\u2019en suis pas si s\u00fbr. Si Fuyu-8B pr\u00e9sente certains des m\u00eames d\u00e9fauts que GPT-4V, cela ne pr\u00e9sage rien de bon pour les applications construites dessus. En plus des biais, GPT-4V donne de mauvaises r\u00e9ponses \u00e0 des questions auxquelles il avait pr\u00e9c\u00e9demment r\u00e9pondu correctement, identifie mal des substances dangereuses et, comme son homologue bas\u00e9 sur le texte, invente des \u00ab\u00a0faits\u00a0\u00bb.<\/p>\n<p>Mais Adept \u2013 comme un nombre croissant de d\u00e9veloppeurs semble-t-il \u2013 choisit de publier des mod\u00e8les multimodaux en open source sans restrictions, en n\u00e9gligeant les cons\u00e9quences.<\/p>","protected":false},"excerpt":{"rendered":"","protected":false},"author":1,"featured_media":7059,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"categories":[608],"tags":[],"class_list":["post-7057","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualite-intelligence-artificielle","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50"],"_links":{"self":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts\/7057","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/comments?post=7057"}],"version-history":[{"count":1,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts\/7057\/revisions"}],"predecessor-version":[{"id":7058,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/posts\/7057\/revisions\/7058"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/media\/7059"}],"wp:attachment":[{"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/media?parent=7057"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/categories?post=7057"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/toukiela.com\/en\/wp-json\/wp\/v2\/tags?post=7057"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}