Text-To-Speech Synthesis

Text-To-Speech Synthesis is a machine learning task that involves converting written text into spoken words. The goal is to generate synthetic speech that sounds natural and resembles human speech as closely as possible.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 332 papers

Title	Date	Tasks	Status	Hype
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis	Apr 21, 2022	DenoisingGPU	CodeCode Available	2
The PartialSpoof Database and Countermeasures for the Detection of Short Fake Speech Segments Embedded in an Utterance	Apr 11, 2022	Speaker VerificationSpeech Synthesis	—Unverified	0
SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech Synthesis	Apr 6, 2022	Speech Synthesistext-to-speech	—Unverified	0
VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature	Apr 2, 2022	Speech Synthesistext-to-speech	—Unverified	0
Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition	Mar 29, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Applying Syntaxx2013Prosody Mapping Hypothesis and Prosodic Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis	Mar 29, 2022	Speech Synthesistext-to-speech	—Unverified	0
AutoTTS: End-to-End Text-to-Speech Synthesis through Differentiable Duration Modeling	Mar 21, 2022	DecoderSpeech Synthesis	—Unverified	0
ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis	Mar 20, 2022	Speaker VerificationSpeech Synthesis	CodeCode Available	0
Text-free non-parallel many-to-many voice conversion using normalising flows	Mar 15, 2022	Normalising FlowsSpeech Synthesis	—Unverified	0
iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating Inverse Short-Time Fourier Transform	Mar 4, 2022	Speech Synthesistext-to-speech	CodeCode Available	2
Generative Modeling for Low Dimensional Speech Attributes with Neural Spline Flows	Mar 3, 2022	Speech Synthesistext-to-speech	CodeCode Available	2
Deep Performer: Score-to-Audio Music Performance Synthesis	Feb 12, 2022	DecoderSpeech Synthesis	—Unverified	0
Multi-Stage Deep Transfer Learning for EmIoT-enabled Human-Computer Interaction	Feb 3, 2022	Human-Object Interaction Detectiontext-to-speech	—Unverified	0
Transformer-based Models of Text Normalization for Speech Applications	Feb 1, 2022	SentenceSpeech Synthesis	—Unverified	0
Multi-speaker Multi-style Text-to-speech Synthesis With Single-speaker Single-style Training Data Scenarios	Dec 23, 2021	DiversitySpeech Synthesis	—Unverified	0
Multi-Singer: Fast Multi-Singer Singing Voice Vocoder With A Large-Scale Corpus	Dec 20, 2021	Audio GenerationSinging Voice Synthesis	CodeCode Available	1
YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone	Dec 4, 2021	Speech SynthesisText-To-Speech Synthesis	CodeCode Available	1
Guided-TTS: A Diffusion Model for Text-to-Speech via Classifier Guidance	Nov 23, 2021	speech-recognitionSpeech Recognition	—Unverified	0
Systematic Inequalities in Language Technology Performance across the World's Languages	Oct 13, 2021	Dependency ParsingMachine Translation	CodeCode Available	0
Fine-grained style control in Transformer-based Text-to-speech Synthesis	Oct 12, 2021	Inductive BiasSpeech Synthesis	CodeCode Available	1
Towards Lifelong Learning of Multilingual Text-To-Speech Synthesis	Oct 9, 2021	Lifelong learningSpeech Synthesis	CodeCode Available	0
Environment Aware Text-to-Speech Synthesis	Oct 8, 2021	AttributeDisentanglement	—Unverified	0
EdiTTS: Score-based Editing for Controllable Text-to-Speech	Oct 6, 2021	Speech SynthesisSpeech-to-Text	CodeCode Available	1
Prosody-TTS: An end-to-end speech synthesis system with prosody control	Oct 6, 2021	RhythmSpeech Synthesis	—Unverified	0
Neural Speech Synthesis in German	Oct 3, 2021	Speech Synthesistext-to-speech	—Unverified	0
PortaSpeech: Portable and High-Quality Generative Text-to-Speech	Sep 30, 2021	text-to-speechText to Speech	CodeCode Available	2
Conditioning Sequence-to-sequence Networks with Learned Activations	Sep 29, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Guided-TTS:Text-to-Speech with Untranscribed Speech	Sep 29, 2021	Speech Synthesistext-to-speech	—Unverified	0
Low-Latency Incremental Text-to-Speech Synthesis with Distilled Context Prediction Network	Sep 22, 2021	Knowledge DistillationLanguage Modeling	—Unverified	0
A Unified Transformer-based Framework for Duplex Text Normalization	Aug 23, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Extending Text-to-Speech Synthesis with Articulatory Movement Prediction using Ultrasound Tongue Imaging	Jul 12, 2021	PredictionSpeech Synthesis	CodeCode Available	0
Location, Location: Enhancing the Evaluation of Text-to-Speech Synthesis Using the Rapid Prosody Transcription Paradigm	Jul 6, 2021	Speech Synthesistext-to-speech	—Unverified	0
Speech Synthesis from Text and Ultrasound Tongue Image-based Articulatory Input	Jul 5, 2021	Speech Synthesistext-to-speech	CodeCode Available	0
WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis	Jun 17, 2021	Speech Synthesistext-to-speech	CodeCode Available	1
RyanSpeech: A Corpus for Conversational Text-to-Speech Synthesis	Jun 15, 2021	speech-recognitionSpeech Recognition	CodeCode Available	1
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior	Jun 11, 2021	Audio GenerationDenoising	CodeCode Available	0
Enhancing Speaking Styles in Conversational Text-to-Speech Synthesis with Graph-based Multi-modal Context Modeling	Jun 11, 2021	Speech Synthesistext-to-speech	CodeCode Available	1
An objective evaluation of the effects of recording conditions and speaker characteristics in multi-speaker deep neural speech synthesis	Jun 3, 2021	Speaker VerificationSpeech Synthesis	—Unverified	0
Speaker verification-derived loss and data augmentation for DNN-based multispeaker speech synthesis	Jun 3, 2021	Data AugmentationSpeaker Verification	—Unverified	0
RAD-TTS: Parallel Flow-Based TTS with Robust Alignment Learning and Diverse Synthesis	Jun 2, 2021	DiversityRhythm	CodeCode Available	1
Dual Script E2E framework for Multilingual and Code-Switching ASR	Jun 2, 2021	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech	May 13, 2021	DecoderSpeech Synthesis	CodeCode Available	1
DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism	May 6, 2021	Generative Adversarial NetworkSinging Voice Synthesis	CodeCode Available	2
Phrase break prediction with bidirectional encoder representations in Japanese text-to-speech synthesis	Apr 26, 2021	Language ModelingLanguage Modelling	CodeCode Available	0
KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset	Apr 17, 2021	Speech Synthesistext-to-speech	CodeCode Available	1
Enhancing Word-Level Semantic Representation via Dependency Structure for Expressive Text-to-Speech Synthesis	Apr 14, 2021	Dependency ParsingRepresentation Learning	—Unverified	0
Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features	Apr 8, 2021	DecoderSpeech Synthesis	—Unverified	0
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability	Apr 3, 2021	Emotion Recognitionreinforcement-learning	—Unverified	0
PnG BERT: Augmented BERT on Phonemes and Graphemes for Neural TTS	Mar 28, 2021	Representation LearningText-To-Speech Synthesis	—Unverified	0
Continual Speaker Adaptation for Text-to-Speech Synthesis	Mar 26, 2021	Continual LearningDiversity	—Unverified	0

Show:10 25 50

← PrevPage 4 of 7Next →

All datasets LJSpeech 20000 utterances CMUDict 0.7b HUI speech corpus Thorsten voice 21.02 neutral Trinity Speech-Gesture Dataset

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NaturalSpeech	Audio Quality MOS	4.56	—	Unverified
2	VITS	Audio Quality MOS	4.43	—	Unverified
3	Grad-TTS + HiFiGAN (1000 steps)	Audio Quality MOS	4.37	—	Unverified
4	FastSpeech 2 + HiFiGAN	Audio Quality MOS	4.34	—	Unverified
5	Glow-TTS + HiFiGAN	Audio Quality MOS	4.34	—	Unverified
6	FastSpeech 2 + HiFiGAN	Audio Quality MOS	4.32	—	Unverified
7	FastDiff (4 steps)	Audio Quality MOS	4.28	—	Unverified
8	FastDiff-TTS	Audio Quality MOS	4.03	—	Unverified
9	Transformer TTS (Mel + WaveGlow)	Audio Quality MOS	3.88	—	Unverified
10	FastSpeech (Mel + WaveGlow)	Audio Quality MOS	3.84	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mia	10-keyword Speech Commands dataset	16	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Token-Level Ensemble Distillation	Phoneme Error Rate	4.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tacotron 2	Mean Opinion Score	3.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Tacotron 2	Mean Opinion Score	3.49	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Match-TTSG	MOS	3.7	—	Unverified