Vers une solution l\'eg\`ere de production de donn\'ees pour le TAL : cr\'eation d'un tagger de l'alsacien par crowdsourcing b\'en\'evole (Toward a lightweight solution to the language resources bottleneck issue: creating a POS tagger for Alsatian using voluntary crowdsourcing)

2017-06-01JEPTALNRECITAL 2017Unverified0· sign in to hype

Alice Millour, Kar{\"e}n Fort, Delphine Bernhard, Lucie Steibl{\'e}

Unverified — Be the first to reproduce this paper.

Abstract

Nous pr\'esentons ici les r\'esultats d'une exp\'erience men\'ee sur l'annotation en parties du discours d'un corpus d'une langue r\'egionale encore peu dot\'ee, l'alsacien, via une plateforme de myriadisation (crowdsourcing) b\'en\'evole d\'evelopp\'ee sp\'ecifiquement \`a cette fin : Bisame1 . La plateforme, mise en ligne en mai 2016, nous a permis de recueillir 15 846 annotations gr\^ace \`a 42 participants. L'\'evaluation des annotations, r\'ealis\'ee sur un corpus de r\'ef\'erence, montre que la F-mesure des annotations volontaires est de 0, 93. Le tagger entra\^ n\'e sur le corpus annot\'e atteint lui 82 \% d'exactitude. Il s'agit du premier tagger sp\'ecifique \`a l'alsacien. Cette m\'ethode de d\'eveloppement de ressources langagi\`eres est donc efficace et prometteuse pour certaines langues peu dot\'ees, dont un nombre suffisant de locuteurs est connect\'e et actif sur le Web. Le code de la plateforme, le corpus annot\'e et le tagger sont librement disponibles.

Tasks

POS

Vers une solution l\'eg\`ere de production de donn\'ees pour le TAL : cr\'eation d'un tagger de l'alsacien par crowdsourcing b\'en\'evole (Toward a lightweight solution to the language resources bottleneck issue: creating a POS tagger for Alsatian using voluntary crowdsourcing)

Abstract

Tasks

Reproductions