Entraînée pendant 50 000 heures, une IA peut jouer seule à Pokémon Rouge (mais elle est nulle)

Image :

Montage capture d’écran Pokémon

Publié le 27/10/2023

Deviendra-t-elle un jour Maître de la Ligue ?

Vous vous souvenez de Twitch PlaysPokémon ? Lorsque des milliers de personnes ont collaboré (ou non) dans un tchat pour essayer de terminer le jeu Pokémon en direct sur Twitch ? C’était il y a presque dix ans et depuis, il semblerait qu’on n’ait même plus besoin d’humain… enfin presque.

Puisque Peter Whidden est bien humain lui, et il est ingénieur software à Seattle. Récemment, il a publié une vidéo YouTube dans laquelle il explique avoir passé les dernières années à entraîner un algorithme soutenu par l’intelligence artificielle pour réussir à jouer à Pokémon Rouge.

Lorsqu’on dit “entraîner une IA”, et même si la dénomination n’est pas tout à fait juste, cela signifie qu’il est parti d’un programme quasiment vierge et que celui-ci a joué des millions de fois à ce jeu vidéo, pour en comprendre les règles et espérer avancer dans l’aventure, et pas qu’un peu : l’IA a accumulé 50 000 heures sur Pokémon Rouge.

L’algorithme d’apprentissage, aussi appelé “reinforcement learning” repose sur un système de “récompense” lorsque l’IA faisait une action qui allait dans le sens de l’avancée dans le jeu vidéo. Cela va de simplement avancer, passer un dialogue jusqu’à capturer ou gagner un combat contre un Pokémon tout en récupérant un badge d’arène et en explorant le monde. Parfois, l’IA ne fait rien et contemple le paysage mais à d’autres moments, elle arrive à gagner des combats.

Au début, l’IA combat uniquement avec la “Charge” de son Carapuce, mais elle finira par réussir à, par exemple, battre Pierre, le premier Champion d’Arène lorsque cette attaque ne pourra plus être utilisée (manque de PP). L’IA décide donc d’utiliser “Pistolet à O” et détruit l’équipe de Pierre. À partir de ce moment-là, toutes les IA qui suivent vont donc utiliser cette attaque “eau” dans cette arène.

Sur cette même logique, l’IA progresse tout au long de l’aventure mais à son rythme et avec son lot d’erreurs. Par exemple, elle évite les Centres Pokémon puisqu’un jour, une de ses occurrences a vu qu’on pouvait déposer un Pokémon de son équipe et donc le lieu entier a été perçu comme “négatif” pour la progression.

Après plusieurs ajustements, l’IA a réussi à sortir de la grotte et à atteindre la ville de Céladopole. La méthode utilisée par Whidden n’est pas nouvelle, le reinforcement learning a été utilisé pour construire DeepBlue, l’IA d’échecs qui a réussi à battre l’humain. Mais le fait de l’appliquer à un jeu sensiblement plus “humain” donnerait presque un certain sens de l’émotion à l’intelligence artificielle.

À noter que Whidden a laissé en accès libre sur GitHub son programme.

À voir aussi sur Konbini

Nos meilleures vidéos !

À la une

Sherifflazone, Theodora… On vous présente nos 5 rookies de l’année (on croit fort en eux)

"Et je sais que je sais que je sais..."
Angèle rétablit la vérité : on chante les paroles de son titre avec Dua Lipa comme des merguez depuis tout ce temps

Entraînée pendant 50 000 heures, une IA peut jouer seule à Pokémon Rouge (mais elle est nulle)

Deviendra-t-elle un jour Maître de la Ligue ?

À la une

Sherifflazone, Theodora… On vous présente nos 5 rookies de l’année (on croit fort en eux)

"Et je sais que je sais que je sais..."Angèle rétablit la vérité : on chante les paroles de son titre avec Dua Lipa comme des merguez depuis tout ce temps

Touuuuuutes les références ciné et séries que SCH nous a filées dans son Vidéo Club

"Et je sais que je sais que je sais..."
Angèle rétablit la vérité : on chante les paroles de son titre avec Dua Lipa comme des merguez depuis tout ce temps