Exploiter des mod\`eles de langue pour \'evaluer des sorties de logiciels d'OCR pour des documents fran du XVIIe si\`ecle ()
Jean-Baptiste Tanguy
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Pour comparer deux sorties de logiciels d'OCR, le Character Error Rate (ou, CER) est fr\'equemment utilis\'e. Moyennant l'existence d'une transcription de r\'ef\'erence de qualit\'e pour certains documents du corpus, le CER calcule le taux d'erreurs de ces pi\`eces et permet ensuite de s\'electionner le logiciel d'OCR le plus adapt\'e. Toutefois, ces transcriptions sont tr\`es co\^uteuses \`a produire et peuvent freiner certaines \'etudes, m\^eme prospectives. Nous explorons l'exploitation des mod\`eles de langue en agr\'egeant selon diff\'erentes m\'ethodes les probabilit\'es offertes par ceux-ci pour estimer la qualit\'e d'une sortie d'OCR. L'indice de corr\'elation Pearson est ici utilis\'e pour comprendre dans quelle mesure ces estimations issues de mod\`eles de langue co-varient avec le CER, mesure de r\'ef\'erence.