Un Sous-espace Th\'ematique Latent pour la Compr\'ehension du Langage Parl\'e (A Latent Topic-based Subspace for Spoken Language Understanding)
Mohamed Bouaziz, Mohamed Morchid, Pierre-Michel Bousquet, Richard Dufour, Killian Janod, Waad Ben Kheder, Georges Linar{\`e}s
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Les applications de compr\'ehension du langage parl\'e sont moins performantes si les documents transcrits automatiquement contiennent un taux d'erreur-mot \'elev\'e. Des solutions r\'ecentes proposent de projeter ces transcriptions dans un espace de th\`emes, comme par exemple l'allocation latente de Dirichlet (LDA), la LDA supervis\'ee ainsi que le mod\`ele author-topic (AT). Une repr\'esentation compacte originale, appel\'ee c-vector, a \'et\'e r\'ecemment introduite afin de surmonter la difficult\'e li\'ee au choix de la taille de ces espaces th\'ematiques. Cette repr\'esentation am\'eliore la robustesse aux erreurs de transcription, en compactant les diff\'erentes repr\'esentations LDA d'un document parl\'e dans un espace r\'eduit. Le d\'efaut majeur de cette m\'ethode est le nombre \'elev\'e de sous-t\^aches n\'ecessaires \`a la construction de l'espace c-vector. Cet article propose de corriger ce d\'efaut en utilisant un cadre original fond\'e sur un espace de caract\'eristiques robustes de faible dimension provenant d'un ensemble de mod\`eles AT consid\'erant \`a la fois le contenu du dialogue parl\'e (les mots) et la classe du document. Les exp\'erimentations, conduites sur le corpus DECODA, montrent que la repr\'esentation propos\'ee permet un gain de plus de 2.5 points en termes de conversations correctement classifi\'ees.