L'\'evaluation des repr\'esentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet)
Nourredine Aliane, Jean-Jacques Mariage, Gilles Bernard
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Les m\'ethodes d'\'evaluation actuelles des repr\'esentations vectorielles de mots utilisent g\'en\'eralement un jeu de donn\'ees restreint et biais\'e. Pour pallier \`a ce probl\`eme nous pr\'esentons une nouvelle approche, bas\'ee sur la similarit\'e entre les synsets associ\'es aux mots dans la volumineuse base de donn\'ees lexicale WordNet. Notre m\'ethode d'\'evaluation consiste dans un premier temps \`a classer automatiquement les repr\'esentions vectorielles de mots \`a l'aide d'un algorithme de clustering, puis \`a \'evaluer la coh\'erence s\'emantique et syntaxique des clusters produits. Cette \'evaluation est effectu\'ee en calculant la similarit\'e entre les mots de chaque cluster, pris deux \`a deux, en utilisant des mesures de similarit\'e entre les mots dans WordNet propos\'ees par NLTK (wup \_similarity). Nous obtenons, pour chaque cluster, une valeur entre 0 et 1. Un cluster dont la valeur est 1 est un cluster dont tous les mots appartiennent au m\^eme synset. Nous calculons ensuite la moyenne des mesures de tous les clusters. Nous avons utilis\'e notre nouvelle approche pour \'etudier et comparer trois m\'ethodes de repr\'esentations vectorielles : une m\'ethode traditionnelle, WebSOM et deux m\'ethodes r\'ecentes, word2vec (Skip-Gram et CBOW) et GloVe, sur trois corpus : en anglais, en francais et en arabe.