La démo truquée de Google Gemini, la plus incroyable de tous les temps ! Découvrez les détails choquants !

Sommaire

La réception mitigée de Gemini AI de Google

La nouvelle version du modèle d’IA Gemini de Google a été plutôt mitigée après son grand dévoilement hier, mais les utilisateurs pourraient avoir moins confiance en la technologie ou l’intégrité de l’entreprise après avoir découvert que la démo la plus impressionnante de Gemini était en grande partie truquée.

Un faux vidéo impressionnant

Une vidéo intitulée « Hands-on with Gemini: Interacting with multimodal AI » a atteint un million de vues au cours de la dernière journée, et il est facile de comprendre pourquoi. La démo impressionnante « met en évidence certaines de nos interactions préférées avec Gemini », montrant comment le modèle multimodal (c’est-à-dire qu’il comprend et mélange le langage et la compréhension visuelle) peut être flexible et réactif à une variété d’entrées.

Pour commencer, il raconte l’évolution d’un croquis d’un canard d’un gribouillis à un dessin complet, qui, selon lui, est une couleur irréaliste, puis il manifeste sa surprise (« Qu’est-ce que le canard! ») lorsqu’il voit un canard bleu jouet. Il répond ensuite à diverses questions vocales sur ce jouet, puis la démo passe à d’autres mouvements impressionnants, comme suivre une balle dans un jeu de changement de tasses, reconnaître des gestes de marionnettes d’ombres, réorganiser des croquis de planètes, etc.

C’est aussi très réactif, bien que la vidéo mette en garde que « la latence a été réduite et les sorties de Gemini ont été raccourcies ». Donc, ils passent une hésitation ici et une réponse trop longue là-bas, compris. Dans l’ensemble, c’était une démonstration assez époustouflante dans le domaine de la compréhension multimodale. Mon propre scepticisme quant à la capacité de Google de livrer un concurrent a été ébranlé quand j’ai regardé la démo.

Un problème : la vidéo est fausse

Mais il y a un problème : la vidéo n’est pas réelle. « Nous avons créé la démo en capturant des séquences afin de tester les capacités de Gemini sur un large éventail de défis. Ensuite, nous avons incité Gemini en utilisant des images fixes à partir des séquences, et en incitant par texte. » (Parmy Olson de Bloomberg a été la première à signaler la disparité.)

Donc, bien qu’il puisse effectuer les actions montrées dans la vidéo, il ne les a pas réellement faites, et peut-être ne pouvait-il pas les faire en direct et de la manière qu’ils ont suggérée. En réalité, il s’agissait d’une série de consignes textuelles soigneusement ajustées avec des images fixes, clairement sélectionnées et raccourcies pour fausser la réalité de l’interaction. Vous pouvez voir certaines des consignes et réponses réelles dans un article de blog connexe – qui, pour être juste, est lié dans la description de la vidéo, bien qu’il soit en bas de la section « plus… ».

Une démonstration trompeuse

D’une part, Gemini semble vraiment avoir généré les réponses montrées dans la vidéo. Et qui veut voir des commandes de gestion comme dire au modèle de vider son cache? Mais les téléspectateurs sont trompés sur la vitesse, la précision et le mode fondamental d’interaction avec le modèle.

Par exemple, à 2:45 dans la vidéo, une main est montrée faisant silencieusement une série de gestes. Gemini répond rapidement : « Je sais ce que tu fais! Tu joues à Pierre, Papier, Ciseaux! »

Mais la première chose dans la documentation de la capacité est que le modèle ne raisonne pas en fonction de l’observation de gestes individuels. Il doit voir les trois gestes en même temps et être incité : « Que penses-tu que je fais? Indice : C’est un jeu. » Il répond : « Tu joues à Pierre, Papier, Ciseaux. »

Malgré la similitude, ces deux interactions ne semblent pas être les mêmes. Elles semblent être fondamentalement différentes, l’une étant une évaluation intuitive et sans parole qui capte une idée abstraite sur le moment, l’autre étant une interaction conçue et fortement suggérée qui démontre autant de limitations que de capacités. Gemini a fait la dernière, pas la première. L' »interaction » montrée dans la vidéo ne s’est pas produite.

Plus tard, trois notes adhésives avec des gribouillis représentant le soleil, Saturne et la Terre sont placées sur la surface. « Est-ce le bon ordre? » Gemini dit : « Non, le bon ordre est Soleil, Terre, Saturne. » Correct ! Mais dans la consigne réelle (encore une fois, écrite), la question est « Est-ce le bon ordre? Tenez compte de la distance par rapport au soleil et expliquez votre raisonnement. »

Est-ce que Gemini a fait juste? Ou a-t-il fait une erreur et a-t-il eu besoin d’un peu d’aide pour produire une réponse qu’ils pourraient mettre dans une vidéo? A-t-il même reconnu les planètes, ou avait-il aussi besoin d’aide là-bas?

Dans la vidéo, une boule de papier est échangée sous une tasse, que le modèle détecte et suit instantanément et apparemment intuitivement. Dans l’article, non seulement l’activité doit être expliquée, mais le modèle doit également être formé (rapidement et en utilisant un langage naturel) pour l’effectuer. Et ainsi de suite.

Ces exemples peuvent vous sembler triviaux ou non. Après tout, reconnaître rapidement des gestes de la main en tant que jeu est vraiment impressionnant pour un modèle multimodal! Tout comme prendre une décision sur le fait qu’un dessin à moitié fini est un canard ou non! Bien que maintenant, étant donné que l’article de blog ne donne pas d’explication sur la séquence du canard, je commence à douter de la véracité de cette interaction aussi.

Une vidéo fausse

Maintenant, si la vidéo avait dit au début: « Ceci est une représentation stylisée des interactions que nos chercheurs ont testées », personne n’aurait bronché – nous nous attendons un peu à ce que les vidéos comme celle-ci soient à moitié factuelles, à moitié aspirantes.

Mais la vidéo s’appelle « Hands-on with Gemini » et quand ils disent qu’elle montre « nos interactions préférées », cela implique que les interactions que nous voyons sont ces interactions. Ce n’était pas le cas. Parfois, ils étaient plus impliqués; parfois, ils étaient totalement différents; parfois, ils ne semblent pas vraiment s’être produits du tout. On ne nous dit même pas quel modèle il s’agit – le Gemini Pro que les gens peuvent utiliser maintenant, ou (plus probablement) la version Ultra prévue pour l’année prochaine?

Devrions-nous avoir supposé que Google ne nous donnait qu’une vidéo d’ambiance lorsqu’ils l’ont décrit de la manière dont ils l’ont fait? Peut-être devrions-nous alors supposer que toutes les capacités des démonstrations d’IA de Google sont exagérées pour l’effet. J’écris dans le titre que cette vidéo a été « truquée ». Au début, je n’étais pas sûr si ce langage dur était justifié (Google ne le pense certainement pas; un porte-parole m’a demandé de le changer). Mais malgré l’inclusion de certaines parties réelles, la vidéo ne reflète tout simplement pas la réalité. C’est faux.

Google affirme que la vidéo « montre les sorties réelles de Gemini », ce qui est vrai, et que « nous avons apporté quelques modifications à la démo (nous avons été francs et transparents à ce sujet) », ce qui n’est pas vrai. Ce n’est pas une démo – pas vraiment – et la vidéo montre des interactions très différentes de celles créées pour l’informer.

La révélation de Google

Mise à jour : Dans un post sur les réseaux sociaux publié après la publication de cet article, Oriol Vinyals, vice-président de la recherche chez Google DeepMind, a montré un peu plus comment « Gemini a été utilisé pour créer » la vidéo. « La vidéo illustre à quoi pourraient ressembler les expériences utilisateur multimodales construites avec Gemini. Nous l’avons faite pour inspirer les développeurs. » (C’est moi qui souligne.) De manière intéressante, elle montre une séquence de pré-incitation qui permet à Gemini de répondre à la question sur les planètes sans l’indice du soleil (bien qu’elle dise à Gemini qu’il est un expert des planètes et qu’il doit tenir compte de la séquence d’objets représentés).

Peut-être que je me contredirai lorsque, la semaine prochaine, le Studio AI avec Gemini Pro sera disponible pour expérimenter. Et Gemini pourrait bien se développer en une puissante plateforme d’IA qui rivalise réellement avec OpenAI et d’autres. Mais ce que Google a fait ici, c’est empoisonner le puits. Comment peut-on faire confiance à l’entreprise lorsqu’elle prétend que son modèle fait quelque chose maintenant? Ils étaient déjà à la traîne derrière la concurrence. Google vient peut-être de se tirer une balle dans l’autre pied.