\'Etude comparative des param\`etres d'entr\'ee pour la synth\`ese expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis )
Sara Dahmani, Vincent Colotte, Slim Ouni
Unverified — Be the first to reproduce this paper.
ReproduceAbstract
Dans le pass\'e, les descripteurs contextuels pour la synth\`ese de la parole acoustique ont \'et\'e \'etudi\'es pour l'entra\^ nement des syst\`emes bas\'es sur des HMMs. Dans ce travail, nous \'etudions l'impact de ces facteurs pour la synth\`ese de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalit\'e acoustique, la modalit\'e visuelle et les dur\'ees des phon\`emes. Nous \'etudions \'egalement l'apport d'un entra\^ nement joint et s\'epar\'e des deux modalit\'es acoustique et visuelle sur la qualit\'e de la parole synth\'etique g\'en\'er\'ee. Finalement, nous proc\'edons \`a une validation crois\'ee entre les r\'esultats de la synth\`ese des diff\'erentes \'emotions. Cette validation crois\'ee, nous a permis de v\'erifier la capacit\'e des DNNs \`a apprendre des caract\'eristiques sp\'ecifiques \`a chaque \'emotion.