SOTAVerified

FlauBERT : des mod\`eles de langue contextualis\'es pr\'e-entra\^ \'es pour le fran (FlauBERT : Unsupervised Language Model Pre-training for French)

2020-06-01JEPTALNRECITAL 2020Code Available0· sign in to hype

Hang Le, Lo{\"\i}c Vial, Jibril Frej, Vincent Segonne, Maximin Coavoux, Benjamin Lecouteux, Alex Allauzen, re, Beno{\^\i}t Crabb{\'e}, Laurent Besacier, Didier Schwab

Code Available — Be the first to reproduce this paper.

Reproduce

Code

Abstract

Les mod\`eles de langue pr\'e-entra\^ n\'es sont d\'esormais indispensables pour obtenir des r\'esultats \`a l'\'etat-de-l'art dans de nombreuses t\^aches du TALN. Tirant avantage de l'\'enorme quantit\'e de textes bruts disponibles, ils permettent d'extraire des repr\'esentations continues des mots, contextualis\'ees au niveau de la phrase. L'efficacit\'e de ces repr\'esentations pour r\'esoudre plusieurs t\^aches de TALN a \'et\'e d\'emontr\'ee r\'ecemment pour l'anglais. Dans cet article, nous pr\'esentons et partageons FlauBERT, un ensemble de mod\`eles appris sur un corpus francais h\'et\'erog\`ene et de taille importante. Des mod\`eles de complexit\'e diff\'erente sont entra\^ n\'es \`a l'aide du nouveau supercalculateur Jean Zay du CNRS. Nous \'evaluons nos mod\`eles de langue sur diverses t\^aches en francais (classification de textes, paraphrase, inf\'erence en langage naturel, analyse syntaxique, d\'esambigu\" sation automatique) et montrons qu'ils surpassent souvent les autres approches sur le r\'ef\'erentiel d'\'evaluation FLUE \'egalement pr\'esent\'e ici.

Tasks

Reproductions