Microsoft Research invente une reconnaissance de la parole meilleure que l'humain

$config[ads_kvadrat] not found

Dictée vocale le meilleur truc que je ne vous ai jamais donné

Dictée vocale le meilleur truc que je ne vous ai jamais donné
Anonim

Microsoft est devenu la première société au monde à développer un logiciel de reconnaissance vocale plus précis que l’être humain. Dans le document intitulé "Atteindre la parité humaine dans la reconnaissance vocale conversationnelle" publié lundi, le logiciel a produit des transcriptions contenant un demi-pourcent d'erreurs en moins que les efforts humains, ce qui est incroyable compte tenu de la qualité de la compréhension du discours. La percée ouvre la porte à de nouveaux A.I. des assistants plus précis que jamais.

C’est impressionnant de voir à quel point la technologie a évolué en si peu de temps. Il n’ya pas si longtemps, la reconnaissance vocale par ordinateur était un créneau étrange qui semblait désespérément lointain. Regardez cette démonstration du logiciel de traitement de la parole de Windows Vista de 2006:

L'équipe a utilisé le test NIST 2000 de l'Institut national des normes et de la technologie, utilisé dans l'ensemble du secteur pour mesurer la fiabilité des transcriptions de la parole. Une conversation a lieu par téléphone entre deux participants, tour à tour, avant que le script résultant ne soit comparé et comparé à l'orthographe du dictionnaire.

Dans la partie standard où deux inconnus parlent pour la première fois, le taux d'erreur humaine est d'environ 5,9%, tandis que dans la partie appelant un correspondant où deux personnes se connaissent, le taux d'erreur est d'environ 11,3%. Les logiciels de Microsoft ont enregistré un taux d'erreur inférieur d'environ 0,4%.

La percée contribuera à apporter de nouvelles formes d'AI immersif. En août, l'étudiant Joshua Browder a dévoilé son chatbot DoNotPay, qui peut aider les personnes sans abri à obtenir des conseils juridiques gratuits. Combiné aux progrès de la reconnaissance, il est facile d’imaginer un avenir où les gens demanderont de l’aide à un assistant virtuel en matière de logement en conversant régulièrement avec leur ordinateur.

À ce stade, les chercheurs étudient comment la reconnaissance de la parole utilisant la technologie I.I. peut donner des réponses plus intelligentes. Sensay, un A.I. détectant la colère du laboratoire derrière Siri, utilise des fonctionnalités de reconnaissance avancées pour détecter si un utilisateur se sent en colère ou confus, en modifiant ses réponses en fonction de la situation. L'élimination de la barrière de la reconnaissance vocale sujette aux erreurs crée de nouvelles opportunités passionnantes d'assistance virtuelle.

$config[ads_kvadrat] not found