Gemini Pro : le modèle phare de Google disponible sur Google Cloud
Après avoir été introduit sur Bard et le Pixel 8 Pro la semaine dernière, Gemini, la famille de modèles GenAI haut de gamme récemment annoncée par Google, est disponible pour les clients de Google Cloud utilisant Vertex AI.
Gemini Pro, une version allégée d’un modèle Gemini plus performant, Gemini Ultra, actuellement en prévisualisation privée pour un « ensemble sélectionné » de clients, est désormais accessible en prévisualisation publique dans Vertex AI, la plateforme de développement d’IA entièrement gérée de Google, via la nouvelle API Gemini Pro. L’API est gratuite à utiliser « dans certaines limites » pour le moment (nous en parlerons plus tard) et prend en charge 38 langues et régions, dont l’Europe, ainsi que des fonctionnalités telles que la fonction de chat et le filtrage.
« Gemini est un modèle multimodal de pointe nativement qui dispose de compétences avancées en matière de raisonnement sophistiqué et de codage », a déclaré Thomas Kurian, PDG de Google Cloud, lors d’un point presse mardi. « [Maintenant,] les développeurs pourront construire leurs propres applications avec. »
API Gemini Pro
Par défaut, l’API Gemini Pro dans Vertex accepte du texte en entrée et génère du texte en sortie, de manière similaire aux API de modèles de texte génératif tels que ceux d’Anthropic, d’AI21 et de Cohere. Un autre point d’accès, Gemini Pro Vision, lancé également aujourd’hui en prévisualisation, peut traiter du texte et des images, y compris des photos et des vidéos, et générer du texte similaire au modèle GPT-4 de OpenAI avec Vision.
Le traitement d’images aborde l’une des principales critiques de Gemini suite à son annonce la semaine dernière, à savoir que la version de Gemini utilisée sur Bard, un modèle Gemini Pro spécifiquement adapté, ne peut pas accepter d’images malgré le fait qu’il soit techniquement « multimodal » (c’est-à-dire entraîné sur une gamme de données comprenant du texte, des images, des vidéos et de l’audio). Des questions subsistent quant aux performances et aux compétences d’analyse d’images de Gemini, notamment à la lumière d’une démonstration produit trompeuse. Mais maintenant, au moins, les utilisateurs pourront tester eux-mêmes le modèle et sa compréhension des images.
Dans Vertex AI, les développeurs peuvent personnaliser Gemini Pro en fonction de contextes et de cas d’utilisation spécifiques en utilisant les mêmes outils de réglage fins disponibles pour d’autres modèles hébergés par Vertex, comme PaLM 2 de Google. Gemini Pro peut également être connecté à des API externes pour effectuer des actions particulières ou être « ancré » afin d’améliorer la précision et la pertinence des réponses du modèle, que ce soit avec des données tierces provenant d’une application ou d’une base de données, ou avec des données provenant du Web et de la recherche Google.
La vérification des citations – une autre fonctionnalité existante de Vertex AI, désormais prise en charge par Gemini Pro – sert de mesure de vérification des faits supplémentaire en indiquant les sources d’information utilisées par Gemini Pro pour parvenir à une réponse.
« L’ancrage nous permet de prendre une réponse générée par Gemini et de la comparer à un ensemble de données présentes dans les propres systèmes d’une entreprise … ou à des sources Web », a déclaré Kurian. « Cette comparaison vous permet d’améliorer la qualité des réponses du modèle. »
Kurian a consacré une bonne partie de son discours à mettre en avant les options de contrôle, de modération et de gouvernance de Gemini Pro – semblant ainsi répondre aux critiques selon lesquelles Gemini Pro ne serait pas le modèle le plus performant. Est-ce que ces assurances seront suffisantes pour convaincre les développeurs ? Peut-être. Mais si ce n’est pas le cas, Google rendra l’offre encore plus attrayante avec des réductions.
Les entrées pour Gemini Pro sur Vertex AI coûteront 0,0025 $ par caractère, tandis que les sorties coûteront 0,00005 $ par caractère. (Les clients de Vertex paient par tranche de 1 000 caractères et, dans le cas de modèles tels que Gemini Pro Vision, par image.) Ces tarifs sont réduits de 4x et 2x respectivement par rapport aux tarifs du prédécesseur de Gemini Pro. Et pendant une durée limitée – jusqu’au début de l’année prochaine – Gemini Pro est gratuit à essayer pour les clients de Vertex AI.
« Notre objectif est d’attirer les développeurs avec des tarifs attractifs », a déclaré Kurian avec franchise.
Renforcement de Vertex
Google propose d’autres nouvelles fonctionnalités à Vertex AI dans l’espoir de dissuader les développeurs de se tourner vers d’autres plateformes concurrentes, comme Bedrock.
Plusieurs de ces fonctionnalités concernent Gemini Pro. Bientôt, les clients de Vertex pourront utiliser Gemini Pro pour alimenter des agents conversationnels vocaux et de chat personnalisés, offrant ainsi ce que Google décrit comme des « interactions dynamiques … qui prennent en charge un raisonnement avancé ». Gemini Pro deviendra également une option pour alimenter les fonctionnalités de résumé, de recommandation et de génération de réponses de recherche dans Vertex AI, en s’appuyant sur des documents de différentes sources (par exemple, des PDF, des images) et modalités pour répondre aux requêtes.
Kurian déclare s’attendre à ce que les fonctionnalités de conversation et de recherche basées sur Gemini Pro soient disponibles « très tôt » en 2024.
Par ailleurs, dans Vertex, il y a maintenant l’option Automatic Side by Side (Auto SxS). En réponse à l’annonce récente d’AWS concernant Model Evaluation sur Bedrock, Auto SxS permet aux développeurs d’évaluer les modèles de manière « à la demande » et « automatique ». Google affirme qu’Auto SxS est à la fois plus rapide et plus rentable que l’évaluation manuelle des modèles (bien que cela reste à confirmer par des tests indépendants).
Google ajoute également des modèles à Vertex provenant de tiers tels que Mistral et Meta, et introduit la « distillation étape par étape », une technique qui permet de créer des modèles plus petits, spécialisés et à faible latence à partir de modèles plus grands. De plus, Google étend sa politique d’indemnisation pour inclure les résultats de PaLM 2 et de ses modèles Imagen, ce qui signifie que l’entreprise défendra légalement les clients éligibles impliqués dans des litiges liés à des différends de propriété intellectuelle concernant les résultats de ces modèles.
Les modèles d’IA génératifs ont tendance à recracher les données d’entraînement – une préoccupation évidente pour les clients d’entreprise. Si l’on découvre un jour qu’un fournisseur comme Google a utilisé des données protégées par le droit d’auteur pour entraîner un modèle sans obtenir au préalable les licences appropriées, les clients de ce fournisseur pourraient se retrouver dans une situation délicate en incorporant un travail en infraction de la propriété intellectuelle dans leurs projets.
Certains fournisseurs invoquent l’usage loyal en guise de défense. Mais, conscients de la méfiance des entreprises, un nombre croissant d’entre eux étendent leurs politiques d’indemnisation en matière d’offres GenAI.
Google ne va pas jusqu’à étendre sa politique d’indemnisation de Vertex AI pour couvrir les clients utilisant l’API Gemini Pro. Cependant, la société déclare qu’elle le fera une fois que l’API Gemini Pro sera lancée publiquement.