SOTAVerified

Apport de l'information temporelle des contextes pour la repr\'esentation vectorielle continue des mots

2015-06-01JEPTALNRECITAL 2015Unverified0· sign in to hype

Killian Janod, Mohamed Morchid, Richard Dufour, Georges Linares

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

Les repr\'esentations vectorielles continues des mots sont en plein essor et ont d\'ej\`a \'et\'e appliqu\'ees avec succ\`es \`a de nombreuses t\^aches en traitement automatique de la langue (TAL). Dans cet article, nous proposons d'int\'egrer l'information temporelle issue du contexte des mots au sein des architectures fond\'ees sur les sacs-de-mots continus (continuous bag-of-words ou CBOW) ou sur les Skip-Grams. Ces approches sont manipul\'ees au travers d'un r\'eseau de neurones, l'architecture CBOW cherchant alors \`a pr\'edire un mot sachant son contexte, alors que l'architecture Skip-Gram pr\'edit un contexte sachant un mot. Cependant, ces mod\`eles, au travers du r\'eseau de neurones, s'appuient sur des repr\'esentations en sac-de-mots et ne tiennent pas compte, explicitement, de l'ordre des mots. En cons\'equence, chaque mot a potentiellement la m\^eme influence dans le r\'eseau de neurones. Nous proposons alors une m\'ethode originale qui int\`egre l'information temporelle des contextes des mots en utilisant leur position relative. Cette m\'ethode s'inspire des mod\`eles contextuels continus. L'information temporelle est trait\'ee comme coefficient de pond\'eration, en entr\'ee du r\'eseau de neurones par le CBOW et dans la couche de sortie par le Skip-Gram. Les premi\`eres exp\'eriences ont \'et\'e r\'ealis\'ees en utilisant un corpus de test mesurant la qualit\'e de la relation s\'emantique-syntactique des mots. Les r\'esultats pr\'eliminaires obtenus montrent l'apport du contexte des mots, avec des gains de 7 et 7,7 points respectivement avec l'architecture Skip-Gram et l'architecture CBOW.

Tasks

Reproductions