Introduction d'informations s\'emantiques dans un syst\`eme de reconnaissance de la parole (Despite spectacular advances in recent years, the Automatic Speech Recognition (ASR) systems still make mistakes, especially in noisy environments)

2020-06-01JEPTALNRECITAL 2020Unverified0· sign in to hype

St{\'e}phane Level, Irina Illina, Dominique Fohr

Unverified — Be the first to reproduce this paper.

Abstract

Malgr\'e les avanc\'es spectaculaires ces derni\`eres ann\'ees, les syst\`emes de Reconnaissance Automatique de Parole (RAP) commettent encore des erreurs, surtout dans des environnements bruit\'es. Pour am\'eliorer la RAP, nous proposons de se diriger vers une contextualisation d'un syst\`eme RAP, car les informations s\'emantiques sont importantes pour la performance de la RAP. Les syst\`emes RAP actuels ne prennent en compte principalement que les informations lexicales et syntaxiques. Pour mod\'eliser les informations s\'emantiques, nous proposons de d\'etecter les mots de la phrase trait\'ee qui pourraient avoir \'et\'e mal reconnus et de proposer des mots correspondant mieux au contexte. Cette analyse s\'emantique permettra de r\'e\'evaluer les N meilleures hypoth\`eses de transcription (N-best). Nous utilisons les embeddings Word2Vec et BERT. Nous avons \'evalu\'e notre m\'ethodologie sur le corpus des conf\'erences TED (TED-LIUM). Les r\'esultats montrent une am\'elioration significative du taux d'erreur mots en utilisant la m\'ethodologie propos\'ee.

Tasks

Automatic Speech Recognition Automatic Speech Recognition (ASR)speech-recognition Speech Recognition

Introduction d'informations s\'emantiques dans un syst\`eme de reconnaissance de la parole (Despite spectacular advances in recent years, the Automatic Speech Recognition (ASR) systems still make mistakes, especially in noisy environments)

Abstract

Tasks

Reproductions