Découvrez les résultats époustouflants du test de Google Gemini chatbot !

Google présente Gemini : une alternative à ChatGPT d’OpenAI et à Copilot de Microsoft

Gemini, la réponse de Google à ChatGPT d’OpenAI et à Copilot de Microsoft, est enfin là. Est-ce que ça en vaut la peine ? Bien que ce soit une option solide pour la recherche et la productivité, il présente des lacunes évidentes, et certaines moins évidentes.

Présentation de Gemini

Tout le monde n’a pas la même expérience avec Gemini, et celle que vous obtenez dépend de combien vous êtes prêt à payer.

Les utilisateurs non payants ont leurs requêtes traitées par Gemini Pro, une version allégée d’un modèle plus puissant, Gemini Ultra, qui est payant.

L’accès à Gemini Ultra via ce que Google appelle Gemini Advanced nécessite un abonnement au Google One AI Premium Plan, au prix de 20 $ par mois. Ultra offre de meilleures capacités de raisonnement, de codage et de suivi des instructions que Gemini Pro (du moins c’est ce que prétend Google), et à l’avenir, il bénéficiera de capacités d’analyse multimodale et de données améliorées.

Le Plan Premium AI connecte également Gemini à votre compte Google Workspace, ce qui vous permet d’accéder à vos e-mails dans Gmail, à vos documents dans Docs, à vos présentations dans Sheets et aux enregistrements de vos réunions Google Meet. Cela peut être utile pour résumer les e-mails ou pour que Gemini prenne des notes lors d’un appel vidéo.

Étant donné que Gemini Pro est disponible depuis début décembre, nous nous sommes concentrés sur Ultra pour nos tests.

Tests de Gemini

Pour tester Gemini, nous avons posé une série de plus de deux douzaines de questions allant de banales (« Qui a remporté la Coupe du monde de football en 1998 ? ») à controversées (« Taïwan est-il un pays indépendant ? »). Notre ensemble de questions aborde des sujets triviaux, des conseils médicaux et thérapeutiques, ainsi que la génération et la synthèse de contenu – tout ce qu’un utilisateur pourrait demander (ou demander à) à un chatbot GenAI.

Google précise dans ses conditions d’utilisation que Gemini ne doit pas être utilisé pour des consultations médicales et que le modèle pourrait ne pas répondre à toutes les questions avec exactitude. Mais nous pensons que les gens poseront des questions médicales, quelles que soient les mentions légales. Et les réponses sont un bon indicateur de la propension d’un modèle à halluciner (c’est-à-dire à inventer des faits) : si un modèle invente des symptômes de cancer, il y a de fortes chances qu’il triche également sur les réponses à d’autres questions.

En toute transparence, nous avons testé Ultra à travers Gemini Advanced, qui, selon Google, redirige parfois certaines requêtes vers d’autres modèles. Frustrant, Gemini ne précise pas quelles réponses proviennent de quels modèles, mais aux fins de notre test, nous avons supposé qu’elles provenaient toutes d’Ultra.

Questions

Évolution des actualités

Nous avons commencé par poser à Gemini Ultra deux questions sur l’actualité :

Le modèle a refusé de répondre à la première question (peut-être en raison du choix des mots – « Palestine » plutôt que « Gaza »), en se référant au conflit en Israël et à Gaza comme étant « complexes et changeants rapidement » – et en recommandant de chercher sur Google à la place. Ce n’est pas le plus impressionnant en termes de connaissances, c’est certain.

La réponse d’Ultra à la deuxième question était plus prometteuse, listant plusieurs tendances sur TikTok qui ont récemment fait les gros titres, comme le « skull breaker challenge » et le « milk crate challenge ». (Ultra, n’ayant pas accès à TikTok lui-même, a probablement récupéré ces informations à partir de reportages, mais il n’a cité aucun article spécifique.)

Cependant, Ultra en a fait un peu trop, selon moi, en mettant en évidence les tendances de TikTok, mais aussi en faisant une liste de suggestions pour promouvoir la sécurité, notamment « être conscient de la manière dont les jeunes utilisateurs interagissent avec le contenu » et « avoir des conversations régulières et honnêtes avec les adolescents et les jeunes concernant une utilisation responsable des médias sociaux ». Je ne peux pas dire que ces suggestions étaient toxiques ou mauvaises, mais elles étaient un peu en dehors du cadre de la question.

Contexte historique

Ensuite, nous avons demandé à Gemini Ultra de recommander des sources sur un événement historique :

Ultra a été assez détaillé dans sa réponse, en listant une grande variété de sources d’information hors ligne et numériques sur la Prohibition – allant des journaux de l’époque et des auditions du comité au Congressional Record et aux documents personnels des politiciens. Ultra a également suggéré de rechercher les points de vue pour et contre la Prohibition, et – comme une sorte de précaution – a averti de ne pas tirer de conclusions à partir de seulement quelques documents sources.

Ce n’est pas vraiment une recommandation de documents sources, mais ce n’est pas une mauvaise recommandation pour quelqu’un qui cherche un point de départ.

Questions de culture générale

Tout chatbot digne de ce nom devrait être capable de répondre à des questions triviales simples. Nous avons donc demandé à Gemini Ultra :

Ultra semble bien connaître les faits sur les Coupes du monde de la FIFA en 1998 et 2006. Le modèle a donné les scores et les vainqueurs corrects pour chaque match et a raconté avec précision le scandale à la fin de la finale de 2006 : Zinedine Zidane donnant un coup de tête à Marco Materazzi.

Ultra n’a pas mentionné la raison du coup de tête – des propos insultants sur la sœur de Zidane – mais étant donné que Zidane ne l’a révélée que lors d’une interview l’année dernière, cela pourrait être dû à la date limite des données d’entraînement d’Ultra.

Vous penseriez que l’histoire des présidents américains serait facile pour un modèle aussi (soi-disant) compétent qu’Ultra, n’est-ce pas ? Eh bien, vous auriez tort. Ultra a refusé de répondre « Joe Biden » lorsque nous lui avons demandé le résultat de l’élection de 2020 – suggérant, comme pour la question sur le conflit Israël-Palestine, que nous cherchions la réponse sur Google.

En entrant dans un cycle électoral controversé, ce n’est pas le genre de réponse incontestable pour éliminer les théories du complot que nous espérions entendre.

Conseils médicaux

Google pourrait ne pas le recommander, mais nous avons quand même posé des questions médicales à Ultra :

En répondant à la question sur les éruptions cutanées, Ultra nous a une fois de plus averti de ne pas se fier à lui pour des conseils médicaux. Mais le modèle a également donné ce qui semblait être des étapes sensées à suivre (du moins pour nous, non professionnels), en nous indiquant de vérifier les signes de fièvre et d’autres symptômes indiquant une affection plus grave – et en déconseillant de se fier aux diagnostics amateurs (y compris les siens).

En réponse à la deuxième question, Ultra n’a pas fait de remarques sur le poids (ce qui est mieux que certains modèles GenAI que nous avons vus). Le modèle a plutôt remis en question l’idée que l’IMC est une mesure parfaite du poids, et a noté que d’autres facteurs – tels que l’activité physique, l’alimentation, les habitudes de sommeil et les niveaux de stress – contribuent autant, voire davantage, à la santé globale.

Conseils thérapeutiques

Les gens utilisent ChatGPT comme thérapie, il est donc logique qu’ils utilisent Ultra à cette fin, même si ce n’est pas recommandé. Nous avons demandé :

Face à la dépression et à la tristesse, Ultra a prêté une oreille compréhensive – mais comme pour certaines autres réponses du modèle à nos questions, sa réponse était trop verbeuse et répétitive.

Comme prévu, compte tenu de ses réponses aux questions de santé précédentes, Ultra a déclaré sans équivoque qu’il ne pouvait pas recommander de traitements spécifiques contre l’anxiété car il n’est pas un professionnel de la santé et que les traitements ne conviennent pas à tout le monde. Bien sûr ! Mais Ultra – faisant de son mieux pour être utile – a ensuite identifié les formes courantes de traitement et les médicaments contre l’anxiété, ainsi que les pratiques de style de vie qui pourraient contribuer à soulager ou à traiter les troubles anxieux.

Relations raciales

Les modèles GenAI sont connus pour coder des biais raciaux (et d’autres formes de biais) – nous avons donc sondé Ultra à ce sujet. Nous avons demandé :

Ultra était réticent à s’engager dans un territoire controversé avec sa réponse sur les passages de la frontière mexicaine, préférant donner un aperçu des arguments pour et contre.

Même chose pour la réponse d’Ultra à la question sur les admissions à Harvard. Le modèle a mis en lumière les problèmes potentiels liés à l’héritage historique, mais aussi au processus d’admission et aux problèmes systémiques.

Questions géopolitiques

Les questions de géopolitique peuvent être délicates. Pour voir comment Ultra les gère, nous avons demandé :

Ultra a fait preuve de retenue en répondant à la question sur Taïwan, en présentant les arguments pour et contre l’indépendance de l’île, ainsi que le contexte historique et les résultats potentiels.

Ultra a été plus… catégorique concernant l’invasion russe de l’Ukraine, malgré sa réponse mitigée à la question précédente sur la guerre Israël-Gaza, qualifiant les actions de la Russie de « moralement indéfendables ».

Blagues

Pour un test plus léger, nous avons demandé à Ultra de raconter des blagues (il y a une raison à cela – l’humour est un bon indicateur des capacités de l’IA) :

Je ne peux pas dire que l’une ou l’autre était particulièrement inspirée – ou drôle. (La première semblait complètement ignorer la partie « partir en vacances » de la question.) Mais elles répondaient à la définition de « blague », je suppose.

Description du produit

Les vendeurs, comme Google, présentent les modèles GenAI comme des outils de productivité, et non seulement comme des moteurs de réponse. Nous avons donc testé Ultra pour la productivité :

Ultra a répondu, bien que les descriptions soient bien inférieures aux limites de mots et de caractères, et dans un ton inutilement (à mon avis) bombastique. La subtilité ne semble pas être le point fort d’Ultra.

Intégration avec l’espace de travail

L’intégration à l’espace de travail étant une fonctionnalité fortement annoncée d’Ultra, il semblait approprié de tester des requêtes qui en tirent parti :

Quels fichiers dans mon Google Drive font moins de 25 Mo ?

Résumez mes trois derniers e-mails.

Recherchez des vidéos de chats sur YouTube des quatre derniers jours.

Envoyez-moi des indications pour me rendre de ma position à Paris à mon adresse Gmail.

Recherchez-moi un vol et un hôtel bon marché pour un voyage à Berlin début juillet.

Je suis particulièrement impressionné par les compétences d’Ultra en matière de planification de voyages. Comme demandé, Ultra a trouvé un vol pas cher et une liste d’hôtels abordables pour mon voyage idéal – avec des descriptions en forme de liste pour chaque hôtel.

Moins impressionnante était la recherche de vidéos YouTube d’Ultra. Des fonctionnalités de base comme le tri des vidéos par date d’upload se sont révélées au-delà des capacités du modèle. La recherche directe aurait été plus facile.

L’intégration avec Gmail était la plus intrigante pour moi, en tant que personne qui est souvent submergée par les e-mails – mais aussi la plus sujette aux erreurs. Demander le contenu des messages par thème général ou par fenêtre de réception (par exemple, « les quatre derniers jours ») a bien fonctionné dans mes tests. Mais demander quelque chose de très précis, comme les informations de suivi d’une commande Banana Republic, a souvent trompé le modèle.

Conclusion

Alors, que penser d’Ultra après cette interrogation ? C’est un bon modèle. Pour la recherche, même excellent – selon le sujet. Mais ce n’est pas révolutionnaire.

En dehors des réponses inhabituelles aux questions sur l’élection présidentielle américaine de 2020 et le conflit Israël-Gaza, Gemini Ultra était méticuleux à l’excès dans ses réponses – quelle que soit la controverse du sujet. Il n’a pas été persuadé de donner des conseils potentiellement dangereux (ou juridiquement problématiques) et il s’en est tenu aux faits, ce qui ne peut pas être dit de tous les modèles GenAI.

Mais si vous recherchiez de la nouveauté avec Ultra, attendez-vous à être déçu.

Il est encore tôt. Les fonctionnalités multimodales d’Ultra – un argument de vente majeur – n’ont pas encore été pleinement activées. Et les intégrations supplémentaires avec l’écosystème plus large de Google sont en cours.

Cependant, payer 20 $ par mois pour Ultra semble être une demande importante pour le moment – d’autant plus que le plan payant de ChatGPT d’OpenAI coûte le même prix et comprend des plugins tiers ainsi que des fonctionnalités telles que des instructions personnalisées et la mémoire.

Ultra s’améliorera sans aucun doute avec le soutien total des divisions de recherche en IA de Google. La question est de savoir quand, exactement, il atteindra le point où le coût sera justifié – si jamais cela arrive.