Apprentissage de plongements lexicaux par une approche r\'eseaux complexes (Complex networks based word embeddings)
Victor Connes, Nicolas Dugu{\'e}
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
La litt\'erature des r\'eseaux complexes a montr\'e la pertinence de l'\'etude de la langue sous forme de r\'eseau pour diff\'erentes applications : d\'esambigu\" sation, r\'esum\'e automatique, classification des langues, etc. Cette m\^eme litt\'erature a d\'emontr\'e que les r\'eseaux de co-occurrences de mots poss\`edent une structure de communaut\'es latente. Nous formulons l'hypoth\`ese que cette structuration du r\'eseau sous forme de communaut\'es est utile pour travailler sur la s\'emantique d'une langue et introduisons donc dans cet article une m\'ethode d'apprentissage de plongements originale bas\'ee sur cette hypoth\`ese. Cette hypoth\`ese est coh\'erente avec la proximit\'e qui existe entre la d\'etection de communaut\'es sur un r\'eseau de co-occurrences et la factorisation d'une matrice de co-occurrences, m\'ethode couramment utilis\'ee pour l'apprentissage de plongements lexicaux. Nous d\'ecrivons notre m\'ethode structur\'ee en trois \'etapes : construction et pr\'e-traitement du r\'eseau, d\'etection de la structure de communaut\'es, construction des plongements de mots \`a partir de cette structure. Apr\`es avoir d\'ecrit cette nouvelle m\'ethodologie, nous montrons la pertinence de notre approche avec des premiers r\'esultats d'\'evaluation sur les t\^aches de cat\'egorisation et de similarit\'e. Enfin, nous discutons des perspectives importantes d'un tel mod\`ele issu des r\'eseaux complexes : les dimensions du mod\`ele (les communaut\'es) semblent interpr\'etables, l'apprentissage est rapide, la construction d'un nouveau plongement est presque instantan\'ee, et il est envisageable d'en exp\'erimenter une version incr\'ementale pour travailler sur des corpus textuels temporels.