Une approche hybride pour la segmentation automatique de documents juridiques (A hybrid approach for automatic text segmentation)
Filipo Studzinski Perotto, Fadila Taleb, Eric Trupin, Youssouf Saidali, Maryvonne Holzem, Jacques Labiche, Laurent Vercouter
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Cet article 1 propose une approche hybride pour la segmentation de documents bas\'ee sur l'agr\'egation de diff\'erentes solutions. Divers algorithmes de segmentation peuvent \^etre utilis\'es dans le syst\`eme, ce qui permet la combinaison de strat\'egies multiples (sp\'ecifiques au domaine, supervis\'ees et nonsupervis\'ees). Un ensemble de documents \'etiquet\'es, segment\'es au pr\'ealable et repr\'esentatif du domaine cibl\'e, doit \^etre fourni pour \^etre utilis\'e comme ensemble d'entra\^ nement pour l'apprentissage des m\'ethodes supervis\'ees, et aussi comme ensemble de test pour l'\'evaluation de la performance de chaque m\'ethode, ce qui d\'eterminera leur poids lors de la phase d'agr\'egation. L'approche propos\'ee pr\'esente de bonnes performances dans un sc\'enario exp\'erimental issu d'un corpus extrait du domaine juridique.