SOTAVerified

Les mod\`eles de langue contextuels Camembert pour le fran : impact de la taille et de l'h\'et\'erog\'en\'eit\'e des donn\'ees d'entrainement (C AMEM BERT Contextual Language Models for French: Impact of Training Data Size and Heterogeneity )

2020-06-01JEPTALNRECITAL 2020Unverified0· sign in to hype

Louis Martin, Benjamin Muller, Pedro Javier Ortiz Su{\'a}rez, Yoann Dupont, Laurent Romary, {\'E}ric Villemonte de la Clergerie, Beno{\^\i}t Sagot, Djam{\'e} Seddah

Unverified — Be the first to reproduce this paper.

Reproduce

Abstract

Les mod\`eles de langue neuronaux contextuels sont d\'esormais omnipr\'esents en traitement automatique des langues. Jusqu'\`a r\'ecemment, la plupart des mod\`eles disponibles ont \'et\'e entra\^ n\'es soit sur des donn\'ees en anglais, soit sur la concat\'enation de donn\'ees dans plusieurs langues. L'utilisation pratique de ces mod\`eles --- dans toutes les langues sauf l'anglais --- \'etait donc limit\'ee. La sortie r\'ecente de plusieurs mod\`eles monolingues fond\'es sur BERT (Devlin et al., 2019), notamment pour le francais, a d\'emontr\'e l'int\'er\^et de ces mod\`eles en am\'eliorant l'\'etat de l'art pour toutes les t\^aches \'evalu\'ees. Dans cet article, \`a partir d'exp\'eriences men\'ees sur CamemBERT (Martin et al., 2019), nous montrons que l'utilisation de donn\'ees \`a haute variabilit\'e est pr\'ef\'erable \`a des donn\'ees plus uniformes. De facon plus surprenante, nous montrons que l'utilisation d'un ensemble relativement petit de donn\'ees issues du web (4Go) donne des r\'esultats aussi bons que ceux obtenus \`a partir d'ensembles de donn\'ees plus grands de deux ordres de grandeurs (138Go).

Tasks

Reproductions