D\'etection des mots non-standards dans les tweets avec des r\'eseaux de neurones (Detecting non-standard words in tweets with neural networks)
Tian Tian, Isabelle Tellier, Marco Dinarelli, Pedro Cardoso
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Dans cet article, nous proposons un mod\`ele pour d\'etecter dans les textes g\'en\'er\'es par des utilisateurs (en particulier les tweets), les mots non-standards \`a corriger. Nous utilisons pour cela des r\'eseaux de neurones convolutifs au niveau des caract\`eres, associ\'es \`a des ``plongements'' (embeddings) des mots pr\'esents dans le contexte du mot courant. Nous avons utilis\'e pour l'\'evaluation trois corpus de r\'ef\'erence. Nous avons test\'e diff\'erents mod\`eles qui varient suivant leurs plongements pr\'e-entrain\'es, leurs configurations et leurs optimisations. Nous avons finalement obtenu une F1-mesure de 0.972 en validation crois\'ee pour la classe des mots non-standards. Cette d\'etection des mots \`a corriger est l'\'etape pr\'eliminaire pour la normalisation des textes non standards comme les tweets.