Auto-encodeurs pour la compr\'ehension de documents parl\'es (Auto-encoders for Spoken Document Understanding)
Killian Janod, Mohamed Morchid, Richard Dufour, Georges Linar{\`e}s, Renato de Mori
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Les repr\'esentations de documents au moyen d'approches \`a base de r\'eseaux de neurones ont montr\'e des am\'eliorations significatives dans de nombreuses t\^aches du traitement du langage naturel. Dans le cadre d'applications r\'eelles, o\`u des conditions d'enregistrement difficiles peuvent \^etre rencontr\'ees, la transcription automatique de documents parl\'es peut g\'en\'erer un nombre de mots mal transcrits important. Cet article propose une repr\'esentation des documents parl\'es tr\`es bruit\'es utilisant des caract\'eristiques apprises par un auto-encodeur profond supervis\'e. La m\'ethode propos\'ee s'appuie \`a la fois sur les documents bruit\'es et leur \'equivalent propre annot\'e manuellement pour estimer une repr\'esentation plus robuste des documents bruit\'es. Cette repr\'esentation est \'evalu\'ee sur le corpus DECODA sur une t\^ache de classification th\'ematique de conversations t\'el\'ephoniques atteignant une pr\'ecision de 83\% avec un gain d'environ 6\%.