Attribution d'Auteur : approche multilingue fond\'ee sur les r\'ep\'etitions maximales

2015-06-01JEPTALNRECITAL 2015Unverified0· sign in to hype

Romain Brixtel, Charlotte Lecluze, Ga{\"e}l Lejeune

Unverified — Be the first to reproduce this paper.

Abstract

Cet article s'attaque \`a la t\^ache d'Attribution d'Auteur en contexte multilingue. Nous proposons une alternative aux m\'ethodes supervis\'ees fond\'ees sur les n-grammes de caract\`eres de longueurs variables : les r\'ep\'etitions maximales. Pour un texte donn\'e, la liste de ses n-grammes de caract\`eres contient des informations redondantes. A contrario, les r\'ep\'etitions maximales repr\'esentent l'ensemble des r\'ep\'etitions de ce texte de mani\`ere condens\'ee. Nos exp\'eriences montrent que la redondance des n-grammes contribue \`a l'efficacit\'e des techniques d'Attribution d'Auteur exploitant des sous-cha\^ nes de caract\`eres. Ce constat pos\'e, nous proposons une fonction de pond\'eration sur les traits donn\'es en entr\'ee aux classifieurs, en introduisant les r\'ep\'etitions maximales du n\`eme ordre (c'est-\`a-dire des r\'ep\'etitions maximales d\'etect\'ees dans un ensemble de r\'ep\'etitions maximales). Les r\'esultats exp\'erimentaux montrent de meilleures performances avec des r\'ep\'etitions maximales, avec moins de donn\'ees que pour les approches fond\'ees sur les n-grammes.

Tasks

POS

Attribution d'Auteur : approche multilingue fond\'ee sur les r\'ep\'etitions maximales

Abstract

Tasks

Reproductions