Apprentissage automatique de repr\'esentation de voix \`a l'aide d'une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )
Adrien Gresse, Mathias Quillot, Richard Dufour, Jean-Fran{\c{c}}ois Bonastre
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
La recherche d'acteurs vocaux pour les productions audiovisuelles est r\'ealis\'ee par des directeurs artistiques (DA). Les DA sont constamment \`a la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions \`a grande \'echelle. Les outils automatiques capables de sugg\'erer des voix pr\'esentent alors un grand int\'er\^et pour l'industrie audiovisuelle. Dans les travaux pr\'ec\'edents, nous avons montr\'e l'existence d'informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche \`a base de r\'eseaux de neurones pour construire une repr\'esentation adapt\'ee aux personnages/r\^oles vis\'es, appel\'ee p-vecteur. Nous proposons ensuite de tirer parti de donn\'ees externes pour la repr\'esentation de voix, proches de celles d'origine, au moyen de m\'ethodes de distillation de la connaissance. Les exp\'eriences men\'ees sur des extraits de voix de jeux vid\'eo montrent une am\'elioration significative de l'approche p-vecteur, avec distillation de la connaissance, par rapport \`a une repr\'esentation x-vecteur, \'etat-de-l'art en reconnaissance du locuteur.