SOTAVerified

D\'etection automatique de phrases en domaine de sp\'ecialit\'e en fran (Sentence boundary detection for specialized domains in French )

2018-05-01JEPTALNRECITAL 2018Unverified0· sign in to hype

Arthur Boyer, Aur{\'e}lie N{\'e}v{\'e}ol

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

La d\'etection de fronti\`eres de phrase est g\'en\'eralement consid\'er\'e comme un probl\`eme r\'esolu. Cependant, les outils performant sur des textes en domaine g\'en\'eral, ne le sont pas forcement sur des domaines sp\'ecialis\'es, ce qui peut engendrer des d\'egradations de performance des outils intervenant en aval dans une cha\^ ne de traitement automatique s'appuyant sur des textes d\'ecoup\'es en phrases. Dans cet article, nous \'evaluons 5 outils de segmentation en phrase sur 3 corpus issus de diff\'erent domaines. Nous r\'e-entrainerons l'un de ces outils sur un corpus de sp\'ecialit\'e pour \'etudier l'adaptation en domaine. Notamment, nous utilisons un nouveau corpus biom\'edical annot\'e sp\'ecifiquement pour cette t\^ache. La detection de fronti\`eres de phrase \`a l'aide d'un mod\`ele OpenNLP entra\^ n\'e sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l'outil.

Tasks

Reproductions