Le nouveau modèle révolutionnaire de Google, Gemini, peut analyser une vidéo d’une heure – mais peu de gens peuvent l’utiliser ! Découvrez pourquoi c’est la fonctionnalité dont tout le monde parle !

Google annonce la sortie du modèle Gemini 1.5 Pro

En octobre dernier, une étude réalisée par un scientifique des données de Google, le directeur technique de Databricks Matei Zaharia et le professeur Pieter Abbeel de l’UC Berkeley a proposé une façon de permettre aux modèles GenAI – c’est-à-dire des modèles du type GPT-4 et ChatGPT d’OpenAI – d’ingérer beaucoup plus de données qu’auparavant. Les auteurs de l’étude ont démontré que, en supprimant un goulot d’étranglement majeur de la mémoire des modèles d’IA, ils pouvaient permettre aux modèles de traiter des millions de mots au lieu de centaines de milliers – la limite des modèles les plus performants à l’époque.

Aujourd’hui, Google a annoncé la sortie de Gemini 1.5 Pro, le dernier membre de sa famille de modèles GenAI Gemini. Conçu pour être un remplacement direct de Gemini 1.0 Pro, le Gemini 1.5 Pro présente plusieurs améliorations par rapport à son prédécesseur, notamment en ce qui concerne la quantité de données qu’il peut traiter.

Gemini 1.5 Pro peut traiter environ 700 000 mots, soit environ 30 000 lignes de code – 35 fois plus que ce que Gemini 1.0 Pro peut gérer. De plus, ce modèle multimodal n’est pas limité au texte. Gemini 1.5 Pro peut ingérer jusqu’à 11 heures de contenu audio ou une heure de vidéo dans différentes langues.

Il est important de noter que ces chiffres représentent une limite maximale. La version de Gemini 1.5 Pro disponible pour la plupart des développeurs et des clients ne peut traiter qu’environ 100 000 mots à la fois. Google qualifie le modèle Gemini 1.5 Pro avec une entrée de données importante d’« expérimental » et seuls les développeurs approuvés dans le cadre d’une prévisualisation privée peuvent l’utiliser via l’outil de développement GenAI d’AI Studio de l’entreprise. Plusieurs clients utilisant la plateforme Vertex AI de Google ont également accès au modèle Gemini 1.5 Pro avec une entrée de données importante, mais pas tous.

Oriol Vinyals, vice-président de la recherche chez Google DeepMind, a qualifié cette avancée de réalisation majeure. Il a déclaré : « Lorsque vous interagissez avec des modèles GenAI, les informations que vous entrez et que vous obtenez deviennent le contexte, et plus vos questions et vos interactions sont longues et complexes, plus le modèle a besoin d’un contexte étendu pour pouvoir y faire face. Nous avons débloqué un contexte étendu d’une manière assez massive ».

Contexte étendu

Le contexte d’un modèle, ou fenêtre contextuelle, fait référence aux données d’entrée (par exemple, du texte) que le modèle prend en compte avant de générer une sortie (par exemple, du texte supplémentaire). Une simple question – « Qui a remporté l’élection présidentielle américaine de 2020 ? » – peut servir de contexte, tout comme un script de film, un e-mail ou un livre électronique.

Les modèles avec de petites fenêtres contextuelles ont tendance à « oublier » le contenu des conversations récentes, ce qui les amène à s’écarter du sujet – souvent de manière problématique. Ce n’est pas nécessairement le cas avec les modèles à grands contextes. De plus, les modèles à grands contextes peuvent mieux comprendre le flux narratif des données qu’ils reçoivent et générer des réponses plus riches en contexte – du moins en théorie.

Il y a eu d’autres tentatives et expériences sur des modèles avec des fenêtres contextuelles atypiquement grandes. Par exemple, la start-up d’IA Magic a affirmé l’été dernier avoir développé un modèle de langage avec une fenêtre contextuelle de 5 millions de tokens. D’autres études ont également détaillé des architectures de modèles capables de traiter jusqu’à un million de tokens. Récemment, un groupe de scientifiques de Meta, du MIT et de Carnegie Mellon a développé une technique qui, selon eux, supprime la contrainte sur la taille de la fenêtre contextuelle des modèles.

Cependant, Google est le premier à rendre un modèle avec une fenêtre contextuelle de cette taille disponible commercialement, devançant ainsi le précédent leader Anthropic et sa fenêtre contextuelle de 200 000 tokens.

La fenêtre contextuelle maximale de Gemini 1.5 Pro est de 1 million de tokens, et la version du modèle plus largement disponible a une fenêtre contextuelle de 128 000 tokens, la même que celle de GPT-4 Turbo d’OpenAI.

Alors, que peut-on accomplir avec une fenêtre contextuelle d’1 million de tokens ? Google promet de nombreuses possibilités, comme l’analyse d’une bibliothèque de code entière, la « raisonnement à travers » des documents longs tels que des contrats, des conversations longues avec un chatbot, et l’analyse et la comparaison de contenus dans des vidéos.

Lors de la présentation, Google a montré deux démonstrations préenregistrées de Gemini 1.5 Pro avec la fenêtre contextuelle d’1 million de tokens activée. Le modèle a réussi toutes les tâches qui lui ont été demandées, mais pas particulièrement rapidement. Chaque tâche a pris entre ~20 secondes et une minute pour être traitée – beaucoup plus longtemps qu’une requête moyenne sur ChatGPT.

Vinyals affirme que la latence s’améliorera à mesure que le modèle sera optimisé. L’entreprise teste déjà une version de Gemini 1.5 Pro avec une fenêtre contextuelle de 10 millions de tokens.

Cependant, une latence aussi médiocre risque de ne pas être attrayante pour de nombreuses personnes, encore moins pour les clients payants. Devoir attendre plusieurs minutes pour effectuer une recherche dans une vidéo n’est pas agréable, et cela ne semble pas très évolutif à court terme. Je m’inquiète également de la façon dont la latence se manifeste dans d’autres applications, comme les conversations avec des chatbots et l’analyse de bases de code. Vinyals n’a pas donné de détails à ce sujet, ce qui ne donne pas beaucoup de confiance.

Mon collègue Frederic Lardinois, plus optimiste, a souligné que les économies de temps globales pourraient compenser l’attente. Mais je pense que cela dépendra beaucoup de l’utilisation. Pour extraire les points clés d’une série télévisée ? Peut-être pas. Mais pour trouver la bonne capture d’écran d’une scène de film dont on ne se souvient que vaguement ? Peut-être.

Autres améliorations

En plus de la fenêtre contextuelle étendue, Gemini 1.5 Pro apporte d’autres améliorations.

Google affirme que, en termes de qualité, Gemini 1.5 Pro est « comparable » à la version actuelle de Gemini Ultra, le modèle phare de GenAI de Google, grâce à une nouvelle architecture composée de modèles d’experts plus petits et spécialisés. Gemini 1.5 Pro divise essentiellement les tâches en plusieurs sous-tâches, puis les délègue aux modèles d’experts appropriés, en décidant quelle tâche déléguer en fonction de ses propres prédictions.

Cette méthode n’est pas nouvelle, mais elle est de plus en plus populaire parmi les fournisseurs de modèles en raison de son efficacité et de sa flexibilité. La qualité « comparable » est un terme assez vague, surtout lorsqu’il s’agit de modèles GenAI, en particulier multimodaux, et encore plus lorsque ces modèles sont réservés aux prévisualisations privées excluant la presse. Pour ce que cela vaut, Google affirme que Gemini 1.5 Pro se situe à un « niveau globalement similaire » par rapport à Ultra sur les benchmarks utilisés par l’entreprise pour développer des LLM, et qu’il surpasse Gemini 1.0 Pro sur 87 % de ces benchmarks.

La tarification est une grande inconnue. Pendant la prévisualisation privée, Gemini 1.5 Pro avec la fenêtre contextuelle d’1 million de tokens sera gratuit, selon Google. Cependant, l’entreprise prévoit d’introduire prochainement des niveaux de tarification qui commenceront avec la fenêtre contextuelle standard de 128 000 tokens et atteindront 1 million de tokens.

Il est probable que la fenêtre contextuelle plus grande ne sera pas bon marché – et Google n’a pas dissipé les craintes en ne révélant pas les prix lors de la présentation. Si les prix sont similaires à ceux d’Anthropic, cela pourrait coûter 8 dollars par million de tokens pour les requêtes et 24 dollars par million de tokens générés. Mais peut-être que les prix seront plus bas, des choses plus étranges se sont produites ! Nous devrons attendre pour le savoir.

Je me demande également quelles seront les implications pour les autres modèles de la famille Gemini, notamment Gemini Ultra. Peut-on s’attendre à des mises à niveau des modèles Ultra qui correspondent approximativement aux mises à niveau des modèles Pro ? Ou y aura-t-il toujours – comme c’est le cas actuellement – une période délicate où les modèles Pro disponibles sont supérieurs en termes de performances aux modèles Ultra, que Google continue de commercialiser comme étant le haut de gamme de son portefeuille Gemini ?

On peut attribuer ces problèmes de transition à des problèmes de jeunesse si l’on veut être charitable. Si ce n’est pas le cas, on peut le dire clairement : c’est vraiment déroutant.

Partagez votre opinion

Ce site utilise Akismet pour réduire les spams. Découvrez comment les données de vos commentaires sont traitées.