SOTAVerified

Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRis\'es en Arabe (This article presents a new system that automatically translates images of arabic documents)

2017-06-01JEPTALNRECITAL 2017Unverified0· sign in to hype

Kamel Bouzidi, Zied Elloumi, Laurent Besacier, Benjamin Lecouteux, Mohamed-Faouzi Benzeghiba

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

Cet article pr\'esente un syst\`eme original de traduction de documents num\'eris\'es en arabe. Deux modules sont cascad\'es : un syst\`eme de reconnaissance optique de caract\`eres (OCR) en arabe et un syst\`eme de traduction automatique (TA) arabe-francais. Le couplage OCR-TA a \'et\'e peu abord\'e dans la litt\'erature et l'originalit\'e de cette \'etude consiste \`a proposer un couplage \'etroit entre OCR et TA ainsi qu'un traitement sp\'ecifique des mots hors vocabulaire (MHV) engendr\'es par les erreurs d'OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une am\'elioration significative des performances de traduction. Les exp\'erimentations sont r\'ealis\'es sur un corpus de journaux num\'eris\'es en arabe et permettent d'obtenir des am\'eliorations en score BLEU de 3,73 et 5,5 sur les corpus de d\'eveloppement et de test respectivement.

Tasks

Reproductions