Qu'apporte BERT \`a l'analyse syntaxique en constituants discontinus ? Une suite de tests pour \'evaluer les pr\'edictions de structures syntaxiques discontinues en anglais (What does BERT contribute to discontinuous constituency parsing ? A test suite to evaluate discontinuous constituency structure predictions in English)
Maximin Coavoux
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Cet article propose d'analyser les apports d'un mod\`ele de langue pr\'e-entra\^ n\'e de type BERT (bidirectional encoder representations from transformers) \`a l'analyse syntaxique en constituants discontinus en anglais (PTB, Penn Treebank). Pour cela, nous r\'ealisons une comparaison des erreurs d'un analyseur syntaxique dans deux configurations (i) avec un acc\`es \`a BERT affin\'e lors de l'apprentissage (ii) sans acc\`es \`a BERT (mod\`ele n'utilisant que les donn\'ees d'entra\^ nement). Cette comparaison s'appuie sur la construction d'une suite de tests que nous rendons publique. Nous annotons les phrases de la section de validation du Penn Treebank avec des informations sur les ph\'enom\`enes syntaxiques \`a l'origine des discontinuit\'es. Ces annotations nous permettent de r\'ealiser une \'evaluation fine des capacit\'es syntaxiques de l'analyseur pour chaque ph\'enom\`ene cible. Nous montrons que malgr\'e l'apport de BERT \`a la qualit\'e des analyses (jusqu'\`a 95 en F1 ), certains ph\'enom\`enes complexes ne sont toujours pas analys\'es de mani\`ere satisfaisante.