R\'e-entra\^ ou entra\^ soi-m\^eme ? Strat\'egies de pr\'e-entra\^ de BERT en domaine m\'edical (Re-train or train from scratch ? Pre-training strategies for BERT in the medical domain )
Hicham El Boukkouri
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Les mod\`eles BERT employ\'es en domaine sp\'ecialis\'e semblent tous d\'ecouler d'une strat\'egie assez simple : utiliser le mod\`ele BERT originel comme initialisation puis poursuivre l'entra\^ nement de celuici sur un corpus sp\'ecialis\'e. Il est clair que cette approche aboutit \`a des mod\`eles plut\^ot performants (e.g. BioBERT (Lee et al., 2020), SciBERT (Beltagy et al., 2019), BlueBERT (Peng et al., 2019)). Cependant, il para\^ t raisonnable de penser qu'entra\^ ner un mod\`ele directement sur un corpus sp\'ecialis\'e, en employant un vocabulaire sp\'ecialis\'e, puisse aboutir \`a des plongements mieux adapt\'es au domaine et donc faire progresser les performances. Afin de tester cette hypoth\`ese, nous entra\^ nons des mod\`eles BERT \`a partir de z\'ero en testant diff\'erentes configurations m\^elant corpus g\'en\'eraux et corpus m\'edicaux et biom\'edicaux. Sur la base d'\'evaluations men\'ees sur quatre t\^aches diff\'erentes, nous constatons que le corpus de d\'epart influence peu la performance d'un mod\`ele BERT lorsque celui-ci est r\'e-entra\^ n\'e sur un corpus m\'edical.