Speech Synthesis

Speech synthesis is the task of generating speech from some other modality like text, lip movements etc.

Please note that the leaderboards here are not really comparable between studies - as they use mean opinion score as a metric and collect different samples from Amazon Mechnical Turk.

( Image credit: WaveNet: A generative model for raw audio )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 1249 papers

Title	Date	Tasks	Status
DNN Filter Bank Cepstral Coefficients for Spoofing Detection	Feb 13, 2017	Speaker VerificationSpeech Synthesis	—Unverified
SampleRNN: An Unconditional End-to-End Neural Audio Generation Model	Dec 22, 2016	Audio GenerationSpeech Synthesis	CodeCode Available
Automatic Syllabification for Manipuri language	Dec 1, 2016	Automatic Speech Recognition (ASR)Segmentation	—Unverified
Combining Human Inputters and Language Services to provide Multi-language support system for International Symposiums	Dec 1, 2016	Automatic Speech Recognition (ASR)Machine Translation	—Unverified
基於字元階層之語音合成用文脈訊息擷取 (Character-Level Linguistic Features Extraction for Text-to-Speech System) [In Chinese]	Dec 1, 2016	Feature EngineeringSpeech Synthesis	—Unverified
An Overview of BPPT's Indonesian Language Resources	Dec 1, 2016	Machine Translationspeech-recognition	—Unverified
Continuous Expressive Speaking Styles Synthesis based on CVSM and MR-HMM	Dec 1, 2016	Expressive Speech SynthesisSpeech Recognition	—Unverified
papago: A Machine Translation Service with Word Sense Disambiguation and Currency Conversion	Dec 1, 2016	Machine TranslationOptical Character Recognition (OCR)	—Unverified
Large-scale Analysis of Spoken Free-verse Poetry	Dec 1, 2016	Speech Synthesis	—Unverified
Weakly-supervised text-to-speech alignment confidence measure	Dec 1, 2016	speech-recognitionSpeech Recognition	—Unverified
A Survey of Voice Translation Methodologies - Acoustic Dialect Decoder	Oct 13, 2016	DecoderSentence	—Unverified
Dictionary Update for NMF-based Voice Conversion Using an Encoder-Decoder Network	Oct 13, 2016	DecoderSpeech Enhancement	—Unverified
Median-Based Generation of Synthetic Speech Durations using a Non-Parametric Approach	Aug 22, 2016	Speech Synthesis	—Unverified
DNN-based Speech Synthesis for Indian Languages from ASCII text	Aug 18, 2016	Speech Synthesistext-to-speech	—Unverified
OpenDial: A Toolkit for Developing Spoken Dialogue Systems with Probabilistic Rules	Aug 1, 2016	Dialogue ManagementSpeech Recognition	—Unverified
Adaptation de la prononciation pour la synth\`ese de la parole spontan\'ee en utilisant des informations linguistiques (Pronunciation adaptation for spontaneous speech synthesis using linguistic information)	Jul 1, 2016	Speech Synthesis	—Unverified
De l'utilisation de descripteurs issus de la linguistique computationnelle dans le cadre de la synth\`ese par HMM (Toward the use of information density based descriptive features in HMM based speech synthesis)	Jul 1, 2016	DescriptiveSENTER	—Unverified
Fast, Compact, and High Quality LSTM-RNN Based Statistical Parametric Speech Synthesizers for Mobile Devices	Jun 20, 2016	QuantizationSpeech Synthesis	—Unverified
Statistical Parametric Speech Synthesis Using Bottleneck Representation From Sequence Auto-encoder	Jun 19, 2016	Speech Synthesis	—Unverified
Design and development a children's speech database	May 25, 2016	speech-recognitionSpeech Recognition	—Unverified
Phonetic Inventory for an Arabic Speech Corpus	May 1, 2016	Speech Synthesis	—Unverified
A Taxonomy of Specific Problem Classes in Text-to-Speech Synthesis: Comparing Commercial and Open Source Performance	May 1, 2016	Speech Synthesistext-to-speech	—Unverified
Speech Synthesis of Code-Mixed Text	May 1, 2016	Language IdentificationSpeech Synthesis	—Unverified
CHATR the Corpus; a 20-year-old archive of Concatenative Speech Synthesis	May 1, 2016	Speech Synthesis	—Unverified
Combining Manual and Automatic Prosodic Annotation for Expressive Speech Synthesis	May 1, 2016	Expressive Speech SynthesisSpeech Synthesis	—Unverified
Improving Trajectory Modelling for DNN-based Speech Synthesis by using Stacked Bottleneck Features and Minimum Generation Error Training	Feb 22, 2016	Speech Synthesis	—Unverified
LSTM Deep Neural Networks Postfiltering for Improving the Quality of Synthetic Voices	Feb 8, 2016	Speech Synthesis	—Unverified
Recurrent Neural Network Postfilters for Statistical Parametric Speech Synthesis	Jan 26, 2016	General Classificationregression	—Unverified
Intelligent Conversational Bot for Massive Online Open Courses (MOOCs)	Jan 26, 2016	General Knowledgespeech-recognition	—Unverified
Speech vocoding for laboratory phonology	Jan 22, 2016	Speech Synthesistext-to-speech	—Unverified
Investigating gated recurrent neural networks for speech synthesis	Jan 11, 2016	Speech Synthesis	—Unverified
Minimally Supervised Number Normalization	Jan 1, 2016	speech-recognitionSpeech Recognition	—Unverified
Text Normalization and Unit Selection for a Memory Based Non Uniform Unit Selection TTS in Malayalam	Dec 1, 2015	Speech SynthesisText Normalization	—Unverified
Automatic Prosody Prediction for Chinese Speech Synthesis using BLSTM-RNN and Embedding Features	Nov 2, 2015	Feature EngineeringProsody Prediction	—Unverified
Hierarchical Representation of Prosody for Statistical Speech Synthesis	Oct 7, 2015	Speech Synthesistext-to-speech	—Unverified
A Waveform Representation Framework for High-quality Statistical Parametric Speech Synthesis	Oct 6, 2015	Speech SynthesisVocal Bursts Intensity Prediction	—Unverified
結合ANN、全域變異數與真實軌跡挑選之基週軌跡產生方法(A Pitch-contour Generation Method Combining ANN Prediction,Global Variance Matching, and Real-contour Selection)[In Chinese]	Oct 1, 2015	Speech Synthesis	—Unverified
Incremental Coordination: Attention-Centric Speech Production in a Physically Situated Conversational Agent	Sep 1, 2015	Speech Synthesis	—Unverified
Improving Arabic Diacritization through Syntactic Analysis	Sep 1, 2015	Machine TranslationMorphological Analysis	—Unverified
Individuality-Preserving Spectrum Modification for Articulation Disorders Using Phone Selective Synthesis	Sep 1, 2015	Speech SynthesisText-To-Speech Synthesis	—Unverified
Semantics and Discourse Processing for Expressive TTS	Sep 1, 2015	Speech Synthesis	—Unverified
Which Synthetic Voice Should I Choose for an Evocative Task?	Sep 1, 2015	Speech SynthesisText-To-Speech Synthesis	—Unverified
A distributed cloud-based dialog system for conversational application development	Sep 1, 2015	Speech RecognitionSpeech Synthesis	—Unverified
A Comparison of Manual and Automatic Voice Repair for Individual with Vocal Disabilities	Sep 1, 2015	Speech Synthesis	—Unverified
The Cohort and Speechify Libraries for Rapid Construction of Speech Enabled Applications for Android	Sep 1, 2015	Action DetectionSpeech Recognition	—Unverified
Significance of Maximum Spectral Amplitude in Sub-bands for Spectral Envelope Estimation and Its Application to Statistical Parametric Speech Synthesis	Aug 3, 2015	Speech Synthesis	—Unverified
The SYSU System for the Interspeech 2015 Automatic Speaker Verification Spoofing and Countermeasures Challenge	Jul 24, 2015	Speaker VerificationSpeech Synthesis	—Unverified
Aligning Opinions: Cross-Lingual Opinion Mining with Dependencies	Jul 1, 2015	Coreference ResolutionNamed Entity Recognition (NER)	—Unverified
Deep Denoising Auto-encoder for Statistical Speech Synthesis	Jun 17, 2015	DenoisingSpeech Synthesis	—Unverified
A Critical Review of Recurrent Neural Networks for Sequence Learning	May 29, 2015	Handwriting RecognitionImage Captioning	CodeCode Available

Show:10 25 50

← PrevPage 23 of 25Next →

All datasets LibriTTS North American English LJSpeech Mandarin Chinese Blizzard Challenge 2013

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PeriodWave-Turbo-L	PESQ	4.45	—	Unverified
2	BigVGAN-v2	PESQ	4.36	—	Unverified
3	EVA-GAN-big	PESQ	4.35	—	Unverified
4	PeriodWave + FreeU	PESQ	4.25	—	Unverified
5	RFWave	PESQ	4.23	—	Unverified
6	BigVSAN (w/ snakebeta)	PESQ	4.12	—	Unverified
7	BigVSAN	PESQ	4.12	—	Unverified
8	EVA-GAN-base	PESQ	4.03	—	Unverified
9	BigVGAN	PESQ	4.03	—	Unverified
10	Vocos	PESQ	3.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tacotron 2	Mean Opinion Score	4.53	—	Unverified
2	WaveNet (Linguistic)	Mean Opinion Score	4.34	—	Unverified
3	WaveNet (L+F)	Mean Opinion Score	4.21	—	Unverified
4	Tacotron	Mean Opinion Score	4	—	Unverified
5	HMM-driven concatenative	Mean Opinion Score	3.86	—	Unverified
6	LSTM-RNN parametric	Mean Opinion Score	3.67	—	Unverified
7	means	Mean Opinion Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BDDM vocoder	Mean Opinion Score	4.48	—	Unverified
2	DiffWave LARGE	Mean Opinion Score	4.44	—	Unverified
3	Neural HMM	Mean Opinion Score	3.24	—	Unverified
4	Neural HMM Ablation with 1 state per phone	Mean Opinion Score	2.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	WaveNet (L+F)	Mean Opinion Score	4.08	—	Unverified
2	LSTM-RNN parametric	Mean Opinion Score	3.79	—	Unverified
3	HMM-driven concatenative	Mean Opinion Score	3.47	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SampleRNN (2-tier)	NLL	1.39	—	Unverified
2	SampleRNN (3-tier)	NLL	1.39	—	Unverified