Le nouvel algorithme du MIT peut prédire les interactions humaines avant qu'elles ne deviennent maladroites

$config[ads_kvadrat] not found

scratch - écrire un programme pour compter le nombre de mots dans un texte - algorithmique

scratch - écrire un programme pour compter le nombre de mots dans un texte - algorithmique
Anonim

Notre incapacité à lire les autres a conduit à quelques échecs épiques et à des baisers manqués. Même après une longue expérience, les interactions humaines sont difficiles à prévoir. Mais les chercheurs du laboratoire d'informatique et d'intelligence artificielle du MIT pensent pouvoir aider: avec un nouvel algorithme d'apprentissage en profondeur qui permet de prédire quand deux personnes s'embrasseront, s'embrasseront, se serreront la main ou se lèveront à cinq, elles ont fait un grand pas en avant vers l'avenir heureusement dépourvu de ces moments délicats.

Ils espèrent que leur nouvel algorithme - formé sur 600 heures de vidéos YouTube et d'émissions de télévision comme Le bureau, Scrubs, La théorie du Big Bang, et Femmes au foyer désespérées - peut être utilisé pour programmer des robots moins socialement gênants et développer des micro-casques de style Google Glass suggérant des actions pour nous avant même que nous ayons la chance de les manquer. À l’avenir, ils s’imaginent, vous ne raterez plus jamais une occasion de diffuser High-Five avec votre collègue.

Réaliser que les robots apprennent à être social de la même manière que nous a été essentiel au succès de l’algorithme. «Les êtres humains apprennent automatiquement à anticiper les actions par l'expérience, ce qui nous a poussés à essayer d'imprégner les ordinateurs avec le même sens commun», déclare le docteur Ph.D. de CSAIL. étudiant Carl Vondrick, le premier auteur d’un article connexe présenté cette semaine à la Conférence internationale sur la vision par ordinateur et la reconnaissance des formes. «Nous voulions montrer que, simplement en regardant une grande quantité de vidéos, les ordinateurs pouvaient acquérir suffisamment de connaissances pour pouvoir effectuer des prévisions cohérentes sur leur environnement.»

Vondrick et son équipe ont appris aux multiples «réseaux de neurones» de l’algorithme à analyser d’énormes quantités de données dans ce cas, des heures aux cinq plus hautes performances de Jim et Pam, et des baisers subreptices de Mike et Susan, seuls. Tenant compte de facteurs tels que les bras étendus, une main levée ou un regard prolongé, chacun des réseaux de neurones a deviné ce qui allait se passer dans la seconde suivante, et le consensus général des réseaux a été considéré comme la "prédiction" finale de la étude.

L'algorithme a fonctionné correctement plus de 43% du temps. Cela peut sembler insuffisant pour garantir que nos interactions quotidiennes seront moins étranges, mais cela représente une grande amélioration par rapport aux algorithmes existants, dont la précision n’est que de 36%.

En outre, les humains ne peuvent prédire les actions que dans 71% des cas. Nous avons besoin de toute l'aide possible.

Dans la deuxième partie de l'étude, l'algorithme avait pour objectif de prédire quel objet (des agrafes de sitcom domestiques telles que des télécommandes, des plats et des poubelles) apparaîtrait dans la scène cinq secondes plus tard. Par exemple, si une porte de micro-ondes est ouverte, il y a une chance relativement grande qu’un gobelet apparaisse ensuite.

Leur algorithme n’est pas encore assez précis pour Google Glass, mais avec le co-auteur Antonio Torralba, Ph.D. - financé par une bourse de recherche Google du corps professoral et par Vondrick travaillant avec un doctorat de Google. fraternité - on peut parier que ça y arrive. Vondrick prédit que les futures versions de cet algorithme pourront être utilisées pour programmer des robots afin qu’ils interagissent avec des humains ou même enseigner aux caméras de sécurité à s’enregistrer lorsqu’une personne tombe ou se blesse.

"Une vidéo ne ressemble pas à un livre" Choisissez votre propre aventure "où vous pouvez voir tous les chemins potentiels", déclare Vondrick. "L’avenir est intrinsèquement ambigu, c’est donc passionnant de nous mettre au défi de développer un système qui utilise ces représentations pour anticiper toutes les possibilités."

$config[ads_kvadrat] not found