{"id":10704,"date":"2024-02-17T17:02:26","date_gmt":"2024-02-17T15:02:26","guid":{"rendered":"https:\/\/toukiela.com\/le-nouveau-modele-revolutionnaire-de-google-gemini-peut-analyser-une-video-dune-heure-mais-peu-de-gens-peuvent-lutiliser-decouvrez-pourquoi-cest-la-fonctionnalite-dont-tout-le-monde-parle\/"},"modified":"2024-02-17T17:02:27","modified_gmt":"2024-02-17T15:02:27","slug":"le-nouveau-modele-revolutionnaire-de-google-gemini-peut-analyser-une-video-dune-heure-mais-peu-de-gens-peuvent-lutiliser-decouvrez-pourquoi-cest-la-fonctionnalite-dont-tout-le-monde-parle","status":"publish","type":"post","link":"https:\/\/toukiela.com\/fr_ca\/le-nouveau-modele-revolutionnaire-de-google-gemini-peut-analyser-une-video-dune-heure-mais-peu-de-gens-peuvent-lutiliser-decouvrez-pourquoi-cest-la-fonctionnalite-dont-tout-le-monde-parle\/","title":{"rendered":"Le nouveau mod\u00e8le r\u00e9volutionnaire de Google, Gemini, peut analyser une vid\u00e9o d&rsquo;une heure &#8211; mais peu de gens peuvent l&rsquo;utiliser ! D\u00e9couvrez pourquoi c&rsquo;est la fonctionnalit\u00e9 dont tout le monde parle !"},"content":{"rendered":"<p><em><\/em><\/p>\n<h2>Google annonce la sortie du mod\u00e8le Gemini 1.5 Pro<\/h2>\n<p><\/p>\n<p>En octobre dernier, une \u00e9tude r\u00e9alis\u00e9e par un scientifique des donn\u00e9es de Google, le directeur technique de Databricks Matei Zaharia et le professeur Pieter Abbeel de l\u2019UC Berkeley a propos\u00e9 une fa\u00e7on de permettre aux mod\u00e8les GenAI \u2013 c\u2019est-\u00e0-dire des mod\u00e8les du type GPT-4 et ChatGPT d\u2019OpenAI \u2013 d\u2019ing\u00e9rer beaucoup plus de donn\u00e9es qu\u2019auparavant. Les auteurs de l\u2019\u00e9tude ont d\u00e9montr\u00e9 que, en supprimant un goulot d\u2019\u00e9tranglement majeur de la m\u00e9moire des mod\u00e8les d\u2019IA, ils pouvaient permettre aux mod\u00e8les de traiter des millions de mots au lieu de centaines de milliers \u2013 la limite des mod\u00e8les les plus performants \u00e0 l\u2019\u00e9poque.<\/p>\n<p>Aujourd\u2019hui, Google a annonc\u00e9 la sortie de Gemini 1.5 Pro, le dernier membre de sa famille de mod\u00e8les GenAI Gemini. Con\u00e7u pour \u00eatre un remplacement direct de Gemini 1.0 Pro, le Gemini 1.5 Pro pr\u00e9sente plusieurs am\u00e9liorations par rapport \u00e0 son pr\u00e9d\u00e9cesseur, notamment en ce qui concerne la quantit\u00e9 de donn\u00e9es qu\u2019il peut traiter.<\/p>\n<p>Gemini 1.5 Pro peut traiter environ 700 000 mots, soit environ 30 000 lignes de code \u2013 35 fois plus que ce que Gemini 1.0 Pro peut g\u00e9rer. De plus, ce mod\u00e8le multimodal n\u2019est pas limit\u00e9 au texte. Gemini 1.5 Pro peut ing\u00e9rer jusqu\u2019\u00e0 11 heures de contenu audio ou une heure de vid\u00e9o dans diff\u00e9rentes langues.<\/p>\n<p>Il est important de noter que ces chiffres repr\u00e9sentent une limite maximale. La version de Gemini 1.5 Pro disponible pour la plupart des d\u00e9veloppeurs et des clients ne peut traiter qu\u2019environ 100 000 mots \u00e0 la fois. Google qualifie le mod\u00e8le Gemini 1.5 Pro avec une entr\u00e9e de donn\u00e9es importante d\u2019\u00ab exp\u00e9rimental \u00bb et seuls les d\u00e9veloppeurs approuv\u00e9s dans le cadre d\u2019une pr\u00e9visualisation priv\u00e9e peuvent l\u2019utiliser via l\u2019outil de d\u00e9veloppement GenAI d\u2019AI Studio de l\u2019entreprise. Plusieurs clients utilisant la plateforme Vertex AI de Google ont \u00e9galement acc\u00e8s au mod\u00e8le Gemini 1.5 Pro avec une entr\u00e9e de donn\u00e9es importante, mais pas tous.<\/p>\n<p>Oriol Vinyals, vice-pr\u00e9sident de la recherche chez Google DeepMind, a qualifi\u00e9 cette avanc\u00e9e de r\u00e9alisation majeure. Il a d\u00e9clar\u00e9 : \u00ab Lorsque vous interagissez avec des mod\u00e8les GenAI, les informations que vous entrez et que vous obtenez deviennent le contexte, et plus vos questions et vos interactions sont longues et complexes, plus le mod\u00e8le a besoin d\u2019un contexte \u00e9tendu pour pouvoir y faire face. Nous avons d\u00e9bloqu\u00e9 un contexte \u00e9tendu d\u2019une mani\u00e8re assez massive \u00bb.<\/p>\n<h2>Contexte \u00e9tendu<\/h2>\n<p>Le contexte d\u2019un mod\u00e8le, ou fen\u00eatre contextuelle, fait r\u00e9f\u00e9rence aux donn\u00e9es d\u2019entr\u00e9e (par exemple, du texte) que le mod\u00e8le prend en compte avant de g\u00e9n\u00e9rer une sortie (par exemple, du texte suppl\u00e9mentaire). Une simple question \u2013 \u00ab Qui a remport\u00e9 l\u2019\u00e9lection pr\u00e9sidentielle am\u00e9ricaine de 2020 ? \u00bb \u2013 peut servir de contexte, tout comme un script de film, un e-mail ou un livre \u00e9lectronique.<\/p>\n<p>Les mod\u00e8les avec de petites fen\u00eatres contextuelles ont tendance \u00e0 \u00ab\u00a0oublier\u00a0\u00bb le contenu des conversations r\u00e9centes, ce qui les am\u00e8ne \u00e0 s\u2019\u00e9carter du sujet \u2013 souvent de mani\u00e8re probl\u00e9matique. Ce n\u2019est pas n\u00e9cessairement le cas avec les mod\u00e8les \u00e0 grands contextes. De plus, les mod\u00e8les \u00e0 grands contextes peuvent mieux comprendre le flux narratif des donn\u00e9es qu\u2019ils re\u00e7oivent et g\u00e9n\u00e9rer des r\u00e9ponses plus riches en contexte \u2013 du moins en th\u00e9orie.<\/p>\n<p>Il y a eu d\u2019autres tentatives et exp\u00e9riences sur des mod\u00e8les avec des fen\u00eatres contextuelles atypiquement grandes. Par exemple, la start-up d\u2019IA Magic a affirm\u00e9 l\u2019\u00e9t\u00e9 dernier avoir d\u00e9velopp\u00e9 un mod\u00e8le de langage avec une fen\u00eatre contextuelle de 5 millions de tokens. D\u2019autres \u00e9tudes ont \u00e9galement d\u00e9taill\u00e9 des architectures de mod\u00e8les capables de traiter jusqu\u2019\u00e0 un million de tokens. R\u00e9cemment, un groupe de scientifiques de Meta, du MIT et de Carnegie Mellon a d\u00e9velopp\u00e9 une technique qui, selon eux, supprime la contrainte sur la taille de la fen\u00eatre contextuelle des mod\u00e8les.<\/p>\n<p>Cependant, Google est le premier \u00e0 rendre un mod\u00e8le avec une fen\u00eatre contextuelle de cette taille disponible commercialement, devan\u00e7ant ainsi le pr\u00e9c\u00e9dent leader Anthropic et sa fen\u00eatre contextuelle de 200 000 tokens.<\/p>\n<p>La fen\u00eatre contextuelle maximale de Gemini 1.5 Pro est de 1 million de tokens, et la version du mod\u00e8le plus largement disponible a une fen\u00eatre contextuelle de 128 000 tokens, la m\u00eame que celle de GPT-4 Turbo d\u2019OpenAI.<\/p>\n<p>Alors, que peut-on accomplir avec une fen\u00eatre contextuelle d\u20191 million de tokens ? Google promet de nombreuses possibilit\u00e9s, comme l\u2019analyse d\u2019une biblioth\u00e8que de code enti\u00e8re, la \u00ab\u00a0raisonnement \u00e0 travers\u00a0\u00bb des documents longs tels que des contrats, des conversations longues avec un chatbot, et l\u2019analyse et la comparaison de contenus dans des vid\u00e9os.<\/p>\n<p>Lors de la pr\u00e9sentation, Google a montr\u00e9 deux d\u00e9monstrations pr\u00e9enregistr\u00e9es de Gemini 1.5 Pro avec la fen\u00eatre contextuelle d\u20191 million de tokens activ\u00e9e. Le mod\u00e8le a r\u00e9ussi toutes les t\u00e2ches qui lui ont \u00e9t\u00e9 demand\u00e9es, mais pas particuli\u00e8rement rapidement. Chaque t\u00e2che a pris entre ~20 secondes et une minute pour \u00eatre trait\u00e9e \u2013 beaucoup plus longtemps qu\u2019une requ\u00eate moyenne sur ChatGPT.<\/p>\n<p>Vinyals affirme que la latence s\u2019am\u00e9liorera \u00e0 mesure que le mod\u00e8le sera optimis\u00e9. L\u2019entreprise teste d\u00e9j\u00e0 une version de Gemini 1.5 Pro avec une fen\u00eatre contextuelle de 10 millions de tokens.<\/p>\n<p>Cependant, une latence aussi m\u00e9diocre risque de ne pas \u00eatre attrayante pour de nombreuses personnes, encore moins pour les clients payants. Devoir attendre plusieurs minutes pour effectuer une recherche dans une vid\u00e9o n\u2019est pas agr\u00e9able, et cela ne semble pas tr\u00e8s \u00e9volutif \u00e0 court terme. Je m\u2019inqui\u00e8te \u00e9galement de la fa\u00e7on dont la latence se manifeste dans d\u2019autres applications, comme les conversations avec des chatbots et l\u2019analyse de bases de code. Vinyals n\u2019a pas donn\u00e9 de d\u00e9tails \u00e0 ce sujet, ce qui ne donne pas beaucoup de confiance.<\/p>\n<p>Mon coll\u00e8gue Frederic Lardinois, plus optimiste, a soulign\u00e9 que les \u00e9conomies de temps globales pourraient compenser l\u2019attente. Mais je pense que cela d\u00e9pendra beaucoup de l\u2019utilisation. Pour extraire les points cl\u00e9s d\u2019une s\u00e9rie t\u00e9l\u00e9vis\u00e9e ? Peut-\u00eatre pas. Mais pour trouver la bonne capture d\u2019\u00e9cran d\u2019une sc\u00e8ne de film dont on ne se souvient que vaguement ? Peut-\u00eatre.<\/p>\n<h2>Autres am\u00e9liorations<\/h2>\n<p>En plus de la fen\u00eatre contextuelle \u00e9tendue, Gemini 1.5 Pro apporte d\u2019autres am\u00e9liorations.<\/p>\n<p>Google affirme que, en termes de qualit\u00e9, Gemini 1.5 Pro est \u00ab\u00a0comparable\u00a0\u00bb \u00e0 la version actuelle de Gemini Ultra, le mod\u00e8le phare de GenAI de Google, gr\u00e2ce \u00e0 une nouvelle architecture compos\u00e9e de mod\u00e8les d\u2019experts plus petits et sp\u00e9cialis\u00e9s. Gemini 1.5 Pro divise essentiellement les t\u00e2ches en plusieurs sous-t\u00e2ches, puis les d\u00e9l\u00e8gue aux mod\u00e8les d\u2019experts appropri\u00e9s, en d\u00e9cidant quelle t\u00e2che d\u00e9l\u00e9guer en fonction de ses propres pr\u00e9dictions.<\/p>\n<p>Cette m\u00e9thode n\u2019est pas nouvelle, mais elle est de plus en plus populaire parmi les fournisseurs de mod\u00e8les en raison de son efficacit\u00e9 et de sa flexibilit\u00e9. La qualit\u00e9 \u00ab\u00a0comparable\u00a0\u00bb est un terme assez vague, surtout lorsqu\u2019il s\u2019agit de mod\u00e8les GenAI, en particulier multimodaux, et encore plus lorsque ces mod\u00e8les sont r\u00e9serv\u00e9s aux pr\u00e9visualisations priv\u00e9es excluant la presse. Pour ce que cela vaut, Google affirme que Gemini 1.5 Pro se situe \u00e0 un \u00ab\u00a0niveau globalement similaire\u00a0\u00bb par rapport \u00e0 Ultra sur les benchmarks utilis\u00e9s par l\u2019entreprise pour d\u00e9velopper des LLM, et qu\u2019il surpasse Gemini 1.0 Pro sur 87 % de ces benchmarks.<\/p>\n<p>La tarification est une grande inconnue. Pendant la pr\u00e9visualisation priv\u00e9e, Gemini 1.5 Pro avec la fen\u00eatre contextuelle d\u20191 million de tokens sera gratuit, selon Google. Cependant, l\u2019entreprise pr\u00e9voit d\u2019introduire prochainement des niveaux de tarification qui commenceront avec la fen\u00eatre contextuelle standard de 128 000 tokens et atteindront 1 million de tokens.<\/p>\n<p>Il est probable que la fen\u00eatre contextuelle plus grande ne sera pas bon march\u00e9 \u2013 et Google n\u2019a pas dissip\u00e9 les craintes en ne r\u00e9v\u00e9lant pas les prix lors de la pr\u00e9sentation. Si les prix sont similaires \u00e0 ceux d\u2019Anthropic, cela pourrait co\u00fbter 8 dollars par million de tokens pour les requ\u00eates et 24 dollars par million de tokens g\u00e9n\u00e9r\u00e9s. Mais peut-\u00eatre que les prix seront plus bas, des choses plus \u00e9tranges se sont produites ! Nous devrons attendre pour le savoir.<\/p>\n<p>Je me demande \u00e9galement quelles seront les implications pour les autres mod\u00e8les de la famille Gemini, notamment Gemini Ultra. Peut-on s\u2019attendre \u00e0 des mises \u00e0 niveau des mod\u00e8les Ultra qui correspondent approximativement aux mises \u00e0 niveau des mod\u00e8les Pro ? Ou y aura-t-il toujours \u2013 comme c\u2019est le cas actuellement \u2013 une p\u00e9riode d\u00e9licate o\u00f9 les mod\u00e8les Pro disponibles sont sup\u00e9rieurs en termes de performances aux mod\u00e8les Ultra, que Google continue de commercialiser comme \u00e9tant le haut de gamme de son portefeuille Gemini ?<\/p>\n<p>On peut attribuer ces probl\u00e8mes de transition \u00e0 des probl\u00e8mes de jeunesse si l\u2019on veut \u00eatre charitable. Si ce n\u2019est pas le cas, on peut le dire clairement : c\u2019est vraiment d\u00e9routant.<\/p>","protected":false},"excerpt":{"rendered":"","protected":false},"author":1,"featured_media":10706,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_seopress_robots_primary_cat":"","_seopress_titles_title":"","_seopress_titles_desc":"","_seopress_robots_index":"","footnotes":""},"categories":[608],"tags":[],"class_list":["post-10704","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-actualite-intelligence-artificielle","generate-columns","tablet-grid-50","mobile-grid-100","grid-parent","grid-50"],"_links":{"self":[{"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/posts\/10704","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/comments?post=10704"}],"version-history":[{"count":1,"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/posts\/10704\/revisions"}],"predecessor-version":[{"id":10705,"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/posts\/10704\/revisions\/10705"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/media\/10706"}],"wp:attachment":[{"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/media?parent=10704"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/categories?post=10704"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/toukiela.com\/fr_ca\/wp-json\/wp\/v2\/tags?post=10704"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}