Découvrez comment Google DeepMind entraîne une IA de jeu vidéo révolutionnaire pour devenir votre partenaire de jeu ultime !

Des modèles d’IA qui jouent à des jeux vidéo comme des humains

Depuis des décennies, il existe des modèles d’IA qui jouent à des jeux, mais ils se spécialisent généralement dans un seul jeu et jouent toujours pour gagner. Les chercheurs de Google DeepMind ont un objectif différent avec leur dernière création : un modèle qui a appris à jouer à plusieurs jeux 3D comme un humain, mais qui fait également de son mieux pour comprendre et agir selon vos instructions verbales.

Un modèle entraîné sur des heures de vidéos

Il existe bien sûr des personnages informatiques ou des IA qui peuvent faire ce genre de choses, mais ils ressemblent davantage à des fonctionnalités d’un jeu : des PNJ que vous pouvez contrôler indirectement à l’aide de commandes formelles dans le jeu.

L’IA SIMA (scalable instructable multiworld agent) de DeepMind n’a aucun accès au code interne ou aux règles du jeu ; au lieu de cela, elle a été entraînée sur de nombreuses heures de vidéos montrant des parties jouées par des humains. À partir de ces données – et des annotations fournies par les étiqueteurs de données – le modèle apprend à associer certaines représentations visuelles d’actions, d’objets et d’interactions. Ils ont également enregistré des vidéos de joueurs s’instruisant mutuellement pour accomplir des tâches dans le jeu.

Un modèle capable de généraliser

Par exemple, il peut apprendre à partir de la façon dont les pixels se déplacent selon un certain schéma à l’écran que cela correspond à une action appelée « avancer », ou lorsque le personnage s’approche d’un objet ressemblant à une porte et utilise l’objet ressemblant à une poignée de porte, cela signifie « ouvrir » une « porte ». Des choses simples comme ça, des tâches ou des événements qui prennent quelques secondes mais qui vont au-delà de simplement appuyer sur une touche ou identifier quelque chose.

Les vidéos d’entraînement ont été réalisées dans plusieurs jeux, de Valheim à Goat Simulator 3, dont les développeurs ont été impliqués et ont donné leur consentement à cette utilisation de leur logiciel. L’un des principaux objectifs des chercheurs, ont-ils déclaré lors d’un appel avec la presse, était de voir si l’entraînement d’une IA à jouer à un ensemble de jeux la rend capable de jouer à d’autres jeux qu’elle n’a pas vus, un processus appelé généralisation.

La réponse est oui, avec quelques réserves. Les agents d’IA entraînés sur plusieurs jeux ont mieux performé sur des jeux auxquels ils n’avaient pas été exposés. Mais bien sûr, de nombreux jeux impliquent des mécaniques ou des termes spécifiques et uniques qui empêcheront même l’IA la mieux préparée de réussir. Mais rien n’empêche le modèle d’apprendre ces éléments à part un manque de données d’entraînement.

Cela s’explique en partie par le fait que, bien qu’il existe de nombreux termes propres aux jeux, les joueurs ont en réalité un nombre limité de « verbes » qui affectent réellement le monde du jeu. Que vous construisiez une cabane, que vous montiez une tente ou que vous invoquiez un abri magique, vous êtes en réalité en train de « construire une maison », n’est-ce pas ? Cette carte des plusieurs douzaines de primitives que l’agent reconnaît actuellement est vraiment intéressante à parcourir :

Une carte des plusieurs douzaines d’actions que SIMA reconnaît et peut effectuer ou combiner. Bildnachweise : Google DeepMind

Un compagnon de jeu plus naturel

L’ambition des chercheurs, en plus de faire avancer l’IA basée sur les agents de manière fondamentale, est de créer un compagnon de jeu plus naturel que les modèles rigides et codés en dur que nous avons aujourd’hui.

« Plutôt que d’avoir un agent surhumain contre lequel vous jouez, vous pouvez avoir des joueurs SIMA à vos côtés qui sont coopératifs, à qui vous pouvez donner des instructions », a déclaré Tim Harley, l’un des responsables du projet.

Comme ils ne voient que les pixels de l’écran du jeu lorsqu’ils jouent, ils doivent apprendre à faire des choses de la même manière que nous le faisons – mais cela signifie aussi qu’ils peuvent s’adapter et produire des comportements émergents.

Une approche différente des simulateurs

Vous vous demandez peut-être comment cela se compare à une méthode courante de création d’IA de type agent, l’approche des simulateurs, dans laquelle un modèle principalement non supervisé expérimente de manière intensive dans un monde simulé en 3D fonctionnant beaucoup plus rapidement que le temps réel, ce qui lui permet d’apprendre intuitivement les règles et de concevoir des comportements autour d’elles sans avoir besoin de beaucoup d’annotations.

« L’apprentissage basé sur les simulateurs traditionnels utilise l’apprentissage par renforcement, qui nécessite que le jeu ou l’environnement fournisse un signal de ‘récompense’ pour que l’agent puisse apprendre – par exemple, une victoire/défaite dans le cas de Go ou de Starcraft, ou un ‘score’ pour les jeux Atari », a déclaré Harley à nous, notant que cette approche a été utilisée pour ces jeux et a donné des résultats phénoménaux.

« Dans les jeux que nous utilisons, tels que les jeux commerciaux de nos partenaires », a-t-il poursuivi, « nous n’avons pas accès à un tel signal de récompense. De plus, nous nous intéressons aux agents capables d’accomplir une grande variété de tâches décrites dans un texte ouvert – il n’est pas possible pour chaque jeu d’évaluer un signal de ‘récompense’ pour chaque objectif possible. Au lieu de cela, nous entraînons les agents en utilisant l’apprentissage par imitation du comportement humain, en leur donnant des objectifs sous forme de texte. »

En d’autres termes, une structure de récompense stricte peut limiter l’agent dans ses poursuites, car s’il est guidé par un score, il n’essaiera jamais rien qui ne maximise pas cette valeur. Mais s’il accorde de la valeur à quelque chose de plus abstrait, comme la proximité de son action à une action qu’il a observée fonctionner auparavant, il peut être entraîné à « vouloir » faire presque n’importe quoi tant que les données d’entraînement le représentent d’une manière ou d’une autre.

De nombreuses possibilités pour l’avenir

D’autres entreprises explorent également ce type de collaboration et de création ouverte ; les conversations avec les PNJ sont étudiées de près comme des opportunités pour mettre en œuvre un chatbot de type LLM, par exemple. Et des actions ou interactions improvisées simples sont également simulées et suivies par l’IA dans des recherches vraiment intéressantes sur les agents.

Bien sûr, il y a aussi les expériences sur les jeux infinis comme MarioGPT, mais c’est une autre affaire.