SOTAVerified

CALOR-QUEST : un corpus d'entra\^ et d'\'evaluation pour la compr\'ehension automatique de textes (Machine reading comprehension is a task related to Question-Answering where questions are not generic in scope but are related to a particular document)

2019-07-01JEPTALNRECITAL 2019Unverified0· sign in to hype

Frederic Bechet, Cindy Aloui, Delphine Charlet, Geraldine Damnati, Johannes Heinecke, Alexis Nasr, Frederic Herledan

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

La compr\'ehension automatique de texte est une t\^ache faisant partie de la famille des syst\`emes de Question/R\'eponse o\`u les questions ne sont pas \`a port\'ee g\'en\'erale mais sont li\'ees \`a un document particulier. R\'ecemment de tr\`es grand corpus (SQuAD, MS MARCO) contenant des triplets (document, question, r\'eponse) ont \'et\'e mis \`a la disposition de la communaut\'e scientifique afin de d\'evelopper des m\'ethodes supervis\'ees \`a base de r\'eseaux de neurones profonds en obtenant des r\'esultats prometteurs. Ces m\'ethodes sont cependant tr\`es gourmandes en donn\'ees d'apprentissage, donn\'ees qui n'existent pour le moment que pour la langue anglaise. Le but de cette \'etude est de permettre le d\'eveloppement de telles ressources pour d'autres langues \`a moindre co\^ut en proposant une m\'ethode g\'en\'erant de mani\`ere semi-automatique des questions \`a partir d'une analyse s\'emantique d'un grand corpus. La collecte de questions naturelle est r\'eduite \`a un ensemble de validation/test. L'application de cette m\'ethode sur le corpus CALOR-Frame a permis de d\'evelopper la ressource CALOR-QUEST pr\'esent\'ee dans cet article.

Tasks

Reproductions