Sommaire
Une nouvelle question : l’IA peut-elle jouer à Pokémon ?
Il y a presque 10 ans, le phénomène en ligne « Twitch Plays Pokémon » a réuni plus d’un million de personnes pour jouer à Pokémon Rouge en même temps, chaque pression de touche des joueurs étant enregistrée comme une commande pour l’avatar pixelisé. Maintenant, comme un Magicarpe qui évolue en Léviator, l’évolution de la technologie soulève une nouvelle question : est-ce que l’IA peut jouer à Pokémon ?
Un ingénieur logiciel forme une IA pour jouer à Pokémon
Depuis quelques années, Peter Whidden, un ingénieur logiciel basé à Seattle, forme un algorithme d’apprentissage par renforcement pour naviguer dans le premier jeu de la série Pokémon. Pendant ce temps, l’IA a joué plus de 50 000 heures au jeu. Whidden a publié une vidéo de 33 minutes sur YouTube racontant l’histoire du développement de l’IA, et après neuf jours, la vidéo a déjà été vue 2,2 millions de fois.
« Ce qui est vraiment amusant à voir, c’est le nombre de personnes qui s’y intéressent », a déclaré Whidden à nous. Il a mis le code qu’il a utilisé sur GitHub, ainsi que des instructions sur la manière de faire fonctionner et former l’IA. « Il y a beaucoup de personnes qui semblent vraiment intéressées par le processus de création ou de conception. » Un fan a même pu appliquer son code à Pokémon Crystal, un autre épisode rétro de Game Boy.
Un modèle de renforcement Pavlovien
Le modèle de renforcement de l’IA est de type pavlovien, donnant des incitations basées sur des points à l’IA pour faire monter de niveau les Pokémon, explorer de nouvelles zones, remporter des combats et vaincre les champions d’arène. Parfois, ces incitations ne sont pas parfaitement alignées avec la progression dans le jeu, mais les échecs de l’IA sont étrangement charmants, ce qui explique probablement pourquoi la vidéo de Whidden est devenue virale.
Dans l’une des tentatives de l’IA, elle s’arrête simplement pour regarder l’eau à Pallet Town, le premier endroit que vous visitez dans le jeu, et ne bouge jamais. Elle reste bloquée dans une zone avec de l’eau animée, de l’herbe et des PNJ qui font des allers-retours, ce qui signifie que chaque image individuelle semble être une expérience nouvelle pour l’IA, même si elle reste immobile sans même avoir son premier Pokémon. Mais cette IA n’est pas pressée de « tous les attraper ». Elle apprécie simplement la beauté de la région de Kanto (ou peut-être prend-elle une position éthique contre le fait de forcer ces petits animaux mignons à se battre les uns contre les autres… qui peut le dire).
« Donc, selon notre propre objectif, se détendre et admirer le paysage est plus gratifiant que d’explorer le reste du monde », explique Whidden dans la vidéo. « C’est un paradoxe que nous rencontrons dans la vie réelle : la curiosité nous mène à nos découvertes les plus importantes, mais en même temps, elle nous rend vulnérables aux distractions et nous attire des ennuis. »
Une IA qui ressent des traumatismes
L’IA continue étonnamment à toucher notre corde sensible : plus tard, elle fait l’expérience d’un événement traumatique au Centre Pokémon. Le succès de l’IA est mesuré en partie par le niveau total de tous les Pokémon de votre équipe. Mais lorsque l’IA se rend au Centre Pokémon et appuie frénétiquement sur les boutons pour déposer un Pokémon dans le stockage, la somme de tous les niveaux diminue considérablement, envoyant un signal négatif fort à l’IA. Avec Pidgey et une créature non identifiée surnommée « AAAAAAAAAA » dans son équipe, la somme de tous les niveaux était de 25, mais une fois que Pidgey est déposé dans le PC, la somme n’est plus que de 12.
« Elle n’a pas d’émotions comme un être humain, mais un seul événement avec une valeur de récompense extrême peut quand même avoir un impact durable sur son comportement », raconte Whidden. « Dans ce cas, perdre son Pokémon une seule fois est suffisant pour former une association négative avec l’ensemble du Centre Pokémon, et l’IA l’évitera complètement dans tous les jeux futurs. »
Une IA limitée et des ajustements nécessaires
Malgré la capacité de l’IA à ressentir des traumatismes et à admirer les jolis pixels de Pallet Town, ce n’est qu’un ordinateur. Cette IA n’est pas capable de lire et d’interpréter les dialogues du jeu, donc dans les premières versions, le programme restait bloqué à un carrefour du jeu. Lorsque vous arrivez à la deuxième ville de Pokémon Rouge, on vous donne un objet à rapporter au professeur Pokémon à Pallet Town. Mais l’IA avait du mal à faire demi-tour pour livrer le colis, rendant impossible de progresser davantage. Donc, Whidden a sauté cette partie pour que chaque jeu commence après la livraison du colis, et avec Carapuce comme Pokémon de départ de l’IA, car le début du jeu est généralement plus facile avec un Pokémon de type eau à vos côtés.
« Dans la vidéo, le point le plus avancé que [l’IA] atteint est le Mont Sélénite, entre le premier et le deuxième champion d’arène », a déclaré Whidden à nous. Les grottes sont notoirement difficiles à naviguer dans les premiers jeux Pokémon, même si vous avez un cerveau humain. Mais Whidden a récemment ajusté certaines des récompenses de son code et a essayé un algorithme d’apprentissage différent, et finalement, l’IA a réussi à sortir de la grotte et à arriver à Azuria.
Une explication familière
D’autres chercheurs ont utilisé l’apprentissage par renforcement pour étudier l’utilisation de l’IA dans les jeux, comme avec AlphaGo de DeepMind, qui a été le premier programme informatique à battre un joueur professionnel de Go. Mais la vidéo de Whidden a suscité autant d’attention parce qu’il est si doué pour expliquer des concepts peu familiers à travers un médium familier : Pokémon.