L'algorithme qui a maîtrisé 'Pong' est maintenant excellent chez 'Flappy Bird', toujours unique

$config[ads_kvadrat] not found

Satisfying Video l Kinetic Sand Nail Polish Foot Cutting ASMR #7 Rainbow ToyTocToc

Satisfying Video l Kinetic Sand Nail Polish Foot Cutting ASMR #7 Rainbow ToyTocToc
Anonim

Améliorer une méthode d'apprentissage en profondeur pionnière Pong, Envahisseurs de l'espace et d’autres jeux Atari, Kevin Chen, étudiant en informatique à l’Université de Stanford, a créé un algorithme assez performant pour le jeu classique 2014 Flappy Bird. Chen a mis à profit un concept connu sous le nom de «q-learning», dans lequel un agent vise à améliorer son score de récompense à chaque itération du jeu, afin de mettre au point un jeu presque impossible et provoquant une dépendance insoutenable.

Chen a créé un système dans lequel son algorithme a été optimisé pour rechercher trois récompenses: une petite récompense positive pour chaque image restée en vie, une récompense importante pour le passage dans un tuyau et une récompense tout aussi importante (mais négative) pour la mort. Selon le rapport rédigé par Chen, le réseau dit «deep-q» est ainsi motivé: «Nous avons réussi à jouer le jeu avec succès. Flappy Bird en apprenant directement à partir des pixels et de la partition, pour obtenir des résultats surhumains. ”

Le premier papier Atari, publié en 2015 dans La nature, vient de la société appartenant à Google, DeepMind (maintenant célèbre pour sa maîtrise de l'ancien jeu de société chinois Go). L’accomplissement de DeepMind constituait une avancée décisive en ce sens qu’il prenait une information visuelle - ou pixel au moins - et que, avec un minimum d’aide, il était capable de maximiser les récompenses. Un tel système de récompense a été assimilé à la réponse dopaminergique du cerveau, simplement simplifiée.

Ce n’est pas la première fois qu’un algorithme conquiert l’oiseau qui bat des ailes: un ancien étudiant en informatique de l’Université de Stanford avait créé un programme qui, une fois formé du jour au lendemain, améliorait son score de 0 à 100.

$config[ads_kvadrat] not found