Exploiter des mod\`eles de langue pour \'evaluer des sorties de logiciels d'OCR pour des documents fran du XVIIe si\`ecle ()

2020-06-01JEPTALNRECITAL 2020Unverified0· sign in to hype

Jean-Baptiste Tanguy

Unverified — Be the first to reproduce this paper.

Abstract

Pour comparer deux sorties de logiciels d'OCR, le Character Error Rate (ou, CER) est fr\'equemment utilis\'e. Moyennant l'existence d'une transcription de r\'ef\'erence de qualit\'e pour certains documents du corpus, le CER calcule le taux d'erreurs de ces pi\`eces et permet ensuite de s\'electionner le logiciel d'OCR le plus adapt\'e. Toutefois, ces transcriptions sont tr\`es co\^uteuses \`a produire et peuvent freiner certaines \'etudes, m\^eme prospectives. Nous explorons l'exploitation des mod\`eles de langue en agr\'egeant selon diff\'erentes m\'ethodes les probabilit\'es offertes par ceux-ci pour estimer la qualit\'e d'une sortie d'OCR. L'indice de corr\'elation Pearson est ici utilis\'e pour comprendre dans quelle mesure ces estimations issues de mod\`eles de langue co-varient avec le CER, mesure de r\'ef\'erence.

Tasks

Optical Character Recognition (OCR)

Exploiter des mod\`eles de langue pour \'evaluer des sorties de logiciels d'OCR pour des documents fran du XVIIe si\`ecle ()

Abstract

Tasks

Reproductions