D\'Efi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )
Jean-Christophe Mensonides, Pierre-Antoine Jean, Andon Tchechmedjiev, S{\'e}bastien Harispe
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Cet article pr\'esente la contribution de l'\'equipe du Laboratoire de G\'enie Informatique et d'Ing\'enierie de Production (LGI2P) d'IMT Mines Al\`es au D\'Efi Fouille de Textes (DEFT) 2019. Il d\'etaille en particulier deux approches propos\'ees pour les t\^aches li\'ees \`a (1) l'indexation et \`a (2) la similarit\'e de documents. Ces m\'ethodes reposent sur des techniques robustes et \'eprouv\'ees du domaine de la Recherche d'Information et du Traitement Automatique du Langage Naturel, qui ont \'et\'e adapt\'ees \`a la nature sp\'ecifique du corpus (biom\'edical/clinique) et coupl\'ees \`a des m\'ecanismes d\'evelopp\'es pour r\'epondre aux sp\'ecificit\'es des t\^aches trait\'ees. Pour la t\^ache 1, nous proposons une m\'ethode d'indexation par extraction appliqu\'ee sur une version normalis\'ee du corpus (MAP de 0,48 \`a l'\'evaluation) ; les sp\'ecificit\'es de la phase de normalisation seront en particulier d\'etaill\'ees. Pour la t\^ache 2, au-del\`a de la pr\'esentation de l'approche propos\'ee bas\'ee sur l'\'evaluation de similarit\'es sur des repr\'esentations de documents (score de 0,91 \`a l'\'evaluation), nous proposons une \'etude comparative de l'impact des choix de la distance et de la mani\`ere de repr\'esenter les textes sur la performance de l'approche.