Informations segmentales pour la caract\'erisation phon\'etique du locuteur : variabilit\'e inter- et intra-locuteurs (An automatic classification task involving 44 speakers was performed using convolutional neural networks (CNN) on broadband spectrograms extracted from 2-second sequences of a spontaneous speech corpus (NCCFr))
Cedric Gendrot, Emmanuel Ferragne, Thomas Pellegrini
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Nous avons effectu\'e une classification automatique de 44 locuteurs \`a partir de r\'eseaux de neurones convolutifs (CNN) sur la base de spectrogrammes \`a bandes larges calcul\'es sur des s\'equences de 2 secondes extraites d'un corpus de parole spontan\'ee (NCCFr). Apr\`es obtention d'un taux de classification moyen de 93,7 \%, les diff\'erentes classes phon\'emiques composant chaque s\'equence ont \'et\'e masqu\'ees afin de tester leur impact sur le mod\`ele. Les r\'esultats montrent que les voyelles orales influent avant toute autre classe sur le taux de classification, suivies ensuite par les occlusives orales. Ces r\'esultats sont expliqu\'es principalement par la repr\'esentation temporelle pr\'edominante des voyelles orales. Une variabilit\'e inter-locuteurs se manifeste par l'existence de locuteurs attracteurs qui attirent un grand nombre de faux positifs et qui ne sont pas sensibles au masquage effectu\'e. Nous mettons en avant dans la discussion des r\'ealisations acoustiques qui pourraient expliquer les sp\'ecificit\'es de ces locuteurs.