Match 1 - Google DeepMind Challenge Match: Lee Sedol vs AlphaGo
Table des matières:
Les ordinateurs frappent nos ânes humains fragiles aux échecs depuis quelques décennies maintenant. La première fois, c’était en 1996, quand Deep Blue d’IBM a pu vaincre le champion du monde Gary Kasperov. Mais une nouvelle étude de l’Alphabet, A.I. La tenue DeepMind met en lumière à quel point la victoire rapide était vraiment limitée.
Pour sa part, Kasperov a immédiatement rebondi, remportant trois matchs et deux matches nuls en six matches de barrage, par un vieux Nouvelles quotidiennes rapport.
Mais beaucoup plus particulièrement, comme le dit Julian Schrittwieser, chercheur chez DeepMind, Inverse, des applications telles que Deep Blue ont également été programmées manuellement. Cela signifie que les humains devaient enseigner le A.I. tout ce dont il avait besoin de savoir pour gérer toutes les éventualités imaginables. En d'autres termes, il ne pourrait jamais être aussi bon que les programmeurs. Et tandis que Deep Blue était évidemment capable de devenir assez bon aux échecs; donnez-lui un autre jeu similaire, comme Go, et vous n’auriez pas été désemparés.
Alpha Zero est complètement différent. Dans une nouvelle étude publiée aujourd'hui dans la revue Science, les auteurs révèlent comment ils ont pu enseigner non seulement à Alpha Zero comment vaincre les humains aux échecs, mais aussi à enseigner à Alpha Zero comment s'enseigner maîtriser plusieurs jeux.
Comment enseigner A.I. S'enseigner
Alpha Zero a été développé à l'aide d'une technique appelée apprentissage par renforcement en profondeur. Cela implique essentiellement d'enseigner le A.I. quelque chose de très simple, comme les règles de base des échecs, puis de le répéter encore et encore jusqu'à ce qu'il apprenne des choses plus compliquées et intéressantes comme des stratégies et des techniques.
«Traditionnellement… les humains prenaient leurs connaissances du jeu et essayaient de les coder en règles», explique Schrittwieser, qui travaille sur Alpha Zero depuis près de quatre ans. "Notre approche consiste à initialiser au hasard, puis à laisser le jeu se jouer contre lui-même, et à partir de ces jeux lui-même, il peut apprendre quelles stratégies fonctionnent."
Toutes les règles Alpha Zero sont les règles de base, et à partir de là, il apprend à gagner en jouant tout seul. Selon les nouvelles découvertes, Alpha Zero n'avait besoin que de neuf heures pour maîtriser les échecs, 12 heures pour maîtriser le shogi et environ 13 jours pour maîtriser Go. Parce qu’il se joue tout seul, il est essentiellement autodidacte. C’est la base de tous les algorithmes du champion du monde guidés par l’homme, qui a battu le champion du monde 2017 dans le Shogi 91 pour cent du temps.
"Il peut découvrir indépendamment des connaissances intéressantes sur le jeu", explique Schrittwieser. "Cela conduit à des programmes qui jouent plus humain."
Même si son style est à la fois humain et créatif, il est probablement aussi optimal, at-il dit, assez pour qu’Alpha Zero puisse dominer pratiquement tous les jeux où il a accès à toutes les informations disponibles. En fait, Alpha Zero est tellement sophistiqué que nous devrons peut-être passer à une classe de jeux entièrement différente afin de continuer à repousser les limites de la manière dont A.I. résout les problèmes.
Pourquoi Alpa Zero est si bon
A.I. Les chercheurs adorent utiliser ces jeux pour tester des algorithmes toujours plus sophistiqués, et ce pour plusieurs raisons. Ils sont élégants et les gens les jouent depuis des centaines d’années, ce qui signifie que vous avez beaucoup de challengers potentiels pour tester votre algorithme. Mais ils sont aussi compliqués et complexes, ce qui signifie qu’ils peuvent servir de tremplin à A.I. cela peut résoudre des problèmes dans le monde réel. Schrittwieser dit que le prochain domaine de recherche est la création d'un algorithme comme Alpha Zero qui peut toujours prendre des décisions optimales avec des informations imparfaites.
"Dans tous ces jeux, vous savez tout ce qui se passe", dit-il. «Dans le monde réel, vous pourriez ne connaître qu'une partie de l'information. Vous connaissez peut-être vos propres cartes, mais vous ne connaissez pas celles de votre adversaire, vous avez des informations partielles."
Il existe encore quelques jeux de société capables de donner ce genre de défi à des algorithmes comme Alpha Zero - Schrittwieser a mentionné Stratego, dans lequel les joueurs se cachent - et Starcraft, qui constitue un autre domaine d’intérêt pour les chercheurs centrés sur le jeu de DeepMind.
«Nous voulons rendre les problèmes auxquels nous nous attaquons de plus en plus complexes», dit-il. "Mais c'est toujours une dimension à la fois."
Parallèlement, la prochaine génération de solutionneurs de problèmes informatisés de Deep Mind montre déjà le potentiel pour passer du monde du jeu au monde réel. Plus tôt cette semaine, il a annoncé un autre algorithme appelé AlphaFold, capable d'extrapoler une séquence protéique en une prédiction précise de sa structure 3D.C’est un problème qui embrouille les scientifiques depuis des décennies et qui pourrait contribuer à ouvrir la voie à des traitements pour des maladies allant de la maladie d’Alzheimer à la fibrose kystique.
Cette main de robot Fratty a développé une motricité sérieuse et peut écraser les canettes
Le robot idéal gardera votre maison propre en lavant la vaisselle, en faisant la lessive et en nettoyant après un désastre culinaire. Mais cela devrait également rester réel, en vous mettant en colère lorsque vous remportez une partie de Fortnite ou en jetant un shaka lorsque vous rentrez du travail.
La psilocybine psychoactive peut-elle guérir le rejet social? Non, mais cela peut apaiser nos esprits
Nous éprouvons tous le rejet social différemment. Certains haussent les épaules; d'autres s'y attardent, ressentant la douleur des jours et des mois après des incidents relativement mineurs. Ces sentiments, qui peuvent déclencher une boucle de rétroaction négative, sont difficiles à contrôler, à comprendre, et, selon une nouvelle étude, traitables avec du psilocyb ...
Qu'est-ce que le contrôle de train positif? Comment cela aurait pu déjouer le déraillement d'Amtrak
Un responsable d'Amtrak a déclaré que le train n'utilisait pas une technologie appelée contrôle de train positif (PTC), qui peut empêcher les trains de dérailler en raison de la vitesse.