Attribution d'Auteur : approche multilingue fond\'ee sur les r\'ep\'etitions maximales
Romain Brixtel, Charlotte Lecluze, Ga{\"e}l Lejeune
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Cet article s'attaque \`a la t\^ache d'Attribution d'Auteur en contexte multilingue. Nous proposons une alternative aux m\'ethodes supervis\'ees fond\'ees sur les n-grammes de caract\`eres de longueurs variables : les r\'ep\'etitions maximales. Pour un texte donn\'e, la liste de ses n-grammes de caract\`eres contient des informations redondantes. A contrario, les r\'ep\'etitions maximales repr\'esentent l'ensemble des r\'ep\'etitions de ce texte de mani\`ere condens\'ee. Nos exp\'eriences montrent que la redondance des n-grammes contribue \`a l'efficacit\'e des techniques d'Attribution d'Auteur exploitant des sous-cha\^ nes de caract\`eres. Ce constat pos\'e, nous proposons une fonction de pond\'eration sur les traits donn\'es en entr\'ee aux classifieurs, en introduisant les r\'ep\'etitions maximales du n\`eme ordre (c'est-\`a-dire des r\'ep\'etitions maximales d\'etect\'ees dans un ensemble de r\'ep\'etitions maximales). Les r\'esultats exp\'erimentaux montrent de meilleures performances avec des r\'ep\'etitions maximales, avec moins de donn\'ees que pour les approches fond\'ees sur les n-grammes.