L'\'evaluation des repr\'esentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet)

2018-05-01JEPTALNRECITAL 2018Unverified0· sign in to hype

Nourredine Aliane, Jean-Jacques Mariage, Gilles Bernard

Unverified — Be the first to reproduce this paper.

Abstract

Les m\'ethodes d'\'evaluation actuelles des repr\'esentations vectorielles de mots utilisent g\'en\'eralement un jeu de donn\'ees restreint et biais\'e. Pour pallier \`a ce probl\`eme nous pr\'esentons une nouvelle approche, bas\'ee sur la similarit\'e entre les synsets associ\'es aux mots dans la volumineuse base de donn\'ees lexicale WordNet. Notre m\'ethode d'\'evaluation consiste dans un premier temps \`a classer automatiquement les repr\'esentions vectorielles de mots \`a l'aide d'un algorithme de clustering, puis \`a \'evaluer la coh\'erence s\'emantique et syntaxique des clusters produits. Cette \'evaluation est effectu\'ee en calculant la similarit\'e entre les mots de chaque cluster, pris deux \`a deux, en utilisant des mesures de similarit\'e entre les mots dans WordNet propos\'ees par NLTK (wup \_similarity). Nous obtenons, pour chaque cluster, une valeur entre 0 et 1. Un cluster dont la valeur est 1 est un cluster dont tous les mots appartiennent au m\^eme synset. Nous calculons ensuite la moyenne des mesures de tous les clusters. Nous avons utilis\'e notre nouvelle approche pour \'etudier et comparer trois m\'ethodes de repr\'esentations vectorielles : une m\'ethode traditionnelle, WebSOM et deux m\'ethodes r\'ecentes, word2vec (Skip-Gram et CBOW) et GloVe, sur trois corpus : en anglais, en francais et en arabe.

Tasks

Clustering

L'\'evaluation des repr\'esentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet)

Abstract

Tasks

Reproductions