Identification des probl\`emes d'annotation pour l'extraction de relations (Identification of annotation problem for the relation extraction)

2020-06-01JEPTALNRECITAL 2020Unverified0· sign in to hype

R, Tsanta riatsitohaina, Thierry Hamon

Unverified — Be the first to reproduce this paper.

Abstract

L'annotation d'un corpus est une t\^ache difficile et laborieuse, notamment sur des textes de sp\'ecialit\'e comme les textes biom\'edicaux. Ainsi, dans un contexte comme l'extraction des interactions alimentm\'edicament (FDI), l'annotation du corpus POMELO a \'et\'e r\'ealis\'ee par un seul annotateur et pr\'esente des risques d'erreur. Dans cet article, nous proposons d'identifier ces probl\`emes d'annotation en utilisant un corpus Silver Standard (CSS) que nous \'etablissons \`a partir d'un vote majoritaire parmi les annotations propos\'ees par des mod\`eles entra\^ n\'es sur un domaine similaire (interaction m\'edicamentm\'edicament -- DDI) et l'annotation manuelle \`a \'evaluer. Les r\'esultats obtenus montrent que l'annotation dans POMELO est consid\'erablement \'eloign\'ee du CSS. L'analyse des erreurs permet d'en identifier les principales causes et de proposer des solutions pour corriger l'annotation existante.

Tasks

Relation Extraction

Identification des probl\`emes d'annotation pour l'extraction de relations (Identification of annotation problem for the relation extraction)

Abstract

Tasks

Reproductions