SOTAVerified

Apprentissage de plongements de mots sur des corpus en langue de sp\'ecialit\'e : une \'etude d'impact (Learning word embeddings on domain specific corpora : an impact study )

2020-06-01JEPTALNRECITAL 2020Unverified0· sign in to hype

Valentin Pelloin, Thibault Prouteau

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

Les m\'ethodes d'apprentissage de plongements lexicaux constituent d\'esormais l'\'etat de l'art pour la repr\'esentation du vocabulaire et des documents sous forme de vecteurs dans de nombreuses t\^aches de Traitement Automatique du Langage Naturel (TALN). Dans ce travail, nous consid\'erons l'apprentissage et l'usage de plongements lexicaux dans le cadre de corpus en langue de sp\'ecialit\'e de petite taille. En particulier, nous souhaitons savoir si dans ce cadre, il est pr\'ef\'erable d'utiliser des plongements pr\'eappris sur des corpus tr\`es volumineux tels Wikip\'edia ou bien s'il est pr\'ef\'erable d'apprendre des plongements sur ces corpus en langue de sp\'ecialit\'e. Pour r\'epondre \`a cette question, nous consid\'erons deux corpus en langue de sp\'ecialit\'e : O HSUMED issu du domaine m\'edical, et un corpus de documentation technique, propri\'et\'e de SNCF. Apr\`es avoir introduit ces corpus et \'evalu\'e leur sp\'ecificit\'e, nous d\'efinissons une t\^ache de classification. Pour cette t\^ache, nous choisissons d'utiliser en entr\'ee d'un classifieur neuronal des repr\'esentations des documents qui sont soit bas\'ees sur des plongements appris sur les corpus de sp\'ecialit\'e, soit sur des plongements appris sur Wikip\'edia. Notre analyse montre que les plongements appris sur Wikip\'edia fournissent de tr\`es bons r\'esultats. Ceux-ci peuvent \^etre utilis\'es comme une r\'ef\'erence fiable, m\^eme si dans le cas d'O HSUMED, il vaut mieux apprendre des plongements sur ce m\^eme corpus. La discussion des r\'esultats se fait en interrogeant les sp\'ecificit\'es des deux corpus, mais ne permet pas d'\'etablir clairement dans quels cas apprendre des plongements sp\'ecifiques au corpus.

Tasks

Reproductions