D\'etection automatique de phrases en domaine de sp\'ecialit\'e en fran (Sentence boundary detection for specialized domains in French )
Arthur Boyer, Aur{\'e}lie N{\'e}v{\'e}ol
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
La d\'etection de fronti\`eres de phrase est g\'en\'eralement consid\'er\'e comme un probl\`eme r\'esolu. Cependant, les outils performant sur des textes en domaine g\'en\'eral, ne le sont pas forcement sur des domaines sp\'ecialis\'es, ce qui peut engendrer des d\'egradations de performance des outils intervenant en aval dans une cha\^ ne de traitement automatique s'appuyant sur des textes d\'ecoup\'es en phrases. Dans cet article, nous \'evaluons 5 outils de segmentation en phrase sur 3 corpus issus de diff\'erent domaines. Nous r\'e-entrainerons l'un de ces outils sur un corpus de sp\'ecialit\'e pour \'etudier l'adaptation en domaine. Notamment, nous utilisons un nouveau corpus biom\'edical annot\'e sp\'ecifiquement pour cette t\^ache. La detection de fronti\`eres de phrase \`a l'aide d'un mod\`ele OpenNLP entra\^ n\'e sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l'outil.