SOTAVerified

D\'etection d'erreurs dans des transcriptions OCR de documents historiques par r\'eseaux de neurones r\'ecurrents multi-niveau (Combining character level and word level RNNs for post-OCR error detection)

2018-05-01JEPTALNRECITAL 2018Unverified0· sign in to hype

Thibault Magallon, Frederic Bechet, Benoit Favre

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

Le traitement \`a posteriori de transcriptions OCR cherche \`a d\'etecter les erreurs dans les sorties d'OCR pour tenter de les corriger, deux t\^aches \'evalu\'ees par la comp\'etition ICDAR-2017 Post-OCR Text Correction. Nous pr\'esenterons dans ce papier un syst\`eme de d\'etection d'erreurs bas\'e sur un mod\`ele \`a r\'eseaux r\'ecurrents combinant une analyse du texte au niveau des mots et des caract\`eres en deux temps. Ce syst\`eme a \'et\'e class\'e second dans trois cat\'egories \'evalu\'ees parmi 11 candidats lors de la comp\'etition.

Tasks

Reproductions