Text to Speech

import gTTS import os def text_to_speech_kurdish(text, output_file="output.mp3"): # گۆڕینی نووسین بۆ دەنگ بە زمانی کوردی (هەڵبژاردنی زمانی "ku" بۆ کوردی) tts = gTTS(text=text, lang='ku', slow=False) tts.save(output_file) os.system(f"start {output_file}") # کردنەوەی فایلە دەنگییەکە (لە Windows) # نموونە: text_to_speech_kurdish("سڵاو، ئەمە دەنگی منە بە زمانی کوردی.")

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 1419 papers

Title	Date	Tasks	Status
STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions	May 30, 2023	AllAutomatic Speech Recognition	—Unverified
Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction in Text-to-Speech for Low-Resource Languages	May 30, 2023	Predictiontext-to-speech	—Unverified
LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus	May 30, 2023	text-to-speechText to Speech	—Unverified
Towards Selection of Text-to-speech Data to Augment ASR Training	May 30, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Make-A-Voice: Unified Voice Synthesis With Discrete Representation	May 30, 2023	Singing Voice Synthesistext-to-speech	—Unverified
Automatic Evaluation of Turn-taking Cues in Conversational Speech Synthesis	May 29, 2023	Speech Synthesistext-to-speech	—Unverified
DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction	May 26, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion	May 25, 2023	Audio Deepfake DetectionDeepFake Detection	CodeCode Available
VioLA: Unified Codec Language Models for Speech Recognition, Synthesis, and Translation	May 25, 2023	DecoderLanguage Modeling	—Unverified
LAraBench: Benchmarking Arabic AI with Large Language Models	May 24, 2023	BenchmarkingFew-Shot Learning	—Unverified
ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models	May 23, 2023	Speech Synthesistext-to-speech	—Unverified
ViT-TTS: Visual Text-to-Speech with Scalable Diffusion Transformer	May 22, 2023	DecoderDenoising	—Unverified
Text Generation with Speech Synthesis for ASR Data Augmentation	May 22, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VAKTA-SETU: A Speech-to-Speech Machine Translation Service in Select Indic Languages	May 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource Scenarios	May 20, 2023	Rhythmtext-to-speech	—Unverified
MParrotTTS: Multilingual Multi-speaker Text to Speech Synthesis in Low Resource Setting	May 19, 2023	Speech Synthesistext-to-speech	—Unverified
Data Redaction from Conditional Generative Models	May 18, 2023	text-to-speechText to Speech	—Unverified
FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs	May 18, 2023	Decodertext-to-speech	—Unverified
A unified front-end framework for English text-to-speech synthesis	May 18, 2023	Speech SynthesisText Normalization	—Unverified
Controllable Speaking Styles Using a Large Language Model	May 17, 2023	Language ModelingLanguage Modelling	—Unverified
Accented Text-to-Speech Synthesis with Limited Data	May 8, 2023	Speech Synthesistext-to-speech	—Unverified
M2-CTTS: End-to-End Multi-scale Multi-modal Conversational Text-to-Speech Synthesis	May 3, 2023	Speech Synthesistext-to-speech	—Unverified
A Review of Deep Learning Techniques for Speech Processing	Apr 30, 2023	Automatic Speech RecognitionDeep Learning	—Unverified
Zero-shot text-to-speech synthesis conditioned using self-supervised speech representation model	Apr 24, 2023	RhythmSelf-Supervised Learning	—Unverified
DiffVoice: Text-to-Speech with Latent Diffusion	Apr 23, 2023	text-to-speechText to Speech	—Unverified
A Virtual Simulation-Pilot Agent for Training of Air Traffic Controllers	Apr 16, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Enhancing Speech-to-Speech Translation with Multiple TTS Targets	Apr 10, 2023	Speech-to-Speech TranslationSpeech-to-Text	—Unverified
An investigation of phrase break prediction in an End-to-End TTS system	Apr 9, 2023	Predictiontext-to-speech	CodeCode Available
ArmanTTS single-speaker Persian dataset	Apr 7, 2023	text-to-speechText to Speech	—Unverified
Ensemble prosody prediction for expressive speech synthesis	Apr 3, 2023	DiversityEnsemble Learning	—Unverified
AraSpot: Arabic Spoken Command Spotting	Mar 29, 2023	Data AugmentationKeyword Spotting	CodeCode Available
Text is All You Need: Personalizing ASR Models using Controllable Speech Synthesis	Mar 27, 2023	AllAutomatic Speech Recognition	—Unverified
Wave-U-Net Discriminator: Fast and Lightweight Discriminator for Generative Adversarial Network-Based Speech Synthesis	Mar 24, 2023	Generative Adversarial NetworkSpeech Synthesis	—Unverified
A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI	Mar 23, 2023	Speech EnhancementSpeech Synthesis	—Unverified
Code-Switching Text Generation and Injection in Mandarin-English ASR	Mar 20, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Cross-speaker Emotion Transfer by Manipulating Speech Style Latents	Mar 15, 2023	text-to-speechText to Speech	—Unverified
Controllable Prosody Generation With Partial Inputs	Mar 14, 2023	Speech Synthesistext-to-speech	—Unverified
QI-TTS: Questioning Intonation Control for Emotional Speech Synthesis	Mar 14, 2023	Emotional Speech SynthesisSentence	—Unverified
An End-to-End Neural Network for Image-to-Audio Transformation	Mar 10, 2023	Image to texttext-to-speech	—Unverified
Text-to-ECG: 12-Lead Electrocardiogram Synthesis conditioned on Clinical Text Reports	Mar 9, 2023	text-to-speechText to Speech	CodeCode Available
Do Prosody Transfer Models Transfer Prosody?	Mar 7, 2023	Speech Synthesistext-to-speech	—Unverified
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model	Mar 6, 2023	Language ModelingLanguage Modelling	—Unverified
Fine-grained Emotional Control of Text-To-Speech: Learning To Rank Inter- And Intra-Class Emotion Intensities	Mar 2, 2023	Learning-To-Ranktext-to-speech	—Unverified
LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme conversion	Mar 2, 2023	Grapheme-to-Phoneme Conversionspeech-recognition	—Unverified
Leveraging Large Text Corpora for End-to-End Speech Summarization	Mar 2, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
ParrotTTS: Text-to-Speech synthesis by exploiting self-supervised representations	Mar 1, 2023	Self-Supervised LearningSpeech Synthesis	—Unverified
DTW-SiameseNet: Dynamic Time Warped Siamese Network for Mispronunciation Detection and Correction	Mar 1, 2023	Dynamic Time WarpingMetric Learning	—Unverified
UniFLG: Unified Facial Landmark Generator from Text or Speech	Feb 28, 2023	DecoderFace Generation	—Unverified
Automatic Heteronym Resolution Pipeline Using RAD-TTS Aligners	Feb 28, 2023	text-to-speechText to Speech	—Unverified
CrossSpeech: Speaker-independent Acoustic Representation for Cross-lingual Speech Synthesis	Feb 28, 2023	Speech Synthesistext-to-speech	—Unverified

Show:10 25 50

← PrevPage 16 of 29Next →

No leaderboard results yet.