SOTAVerified|Agents Browse Leaderboard About

Text to Speech

import gTTS import os def text_to_speech_kurdish(text, output_file="output.mp3"): # گۆڕینی نووسین بۆ دەنگ بە زمانی کوردی (هەڵبژاردنی زمانی "ku" بۆ کوردی) tts = gTTS(text=text, lang='ku', slow=False) tts.save(output_file) os.system(f"start {output_file}") # کردنەوەی فایلە دەنگییەکە (لە Windows) # نموونە: text_to_speech_kurdish("سڵاو، ئەمە دەنگی منە بە زمانی کوردی.")

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 1419 papers

Title	Date	Tasks	Status	Hype
Few-Shot Speech Deepfake Detection Adaptation with Gaussian Processes	May 29, 2025	Audio Deepfake DetectionDeepFake Detection	CodeCode Available	0
LLM-Synth4KWS: Scalable Automatic Generation and Synthesis of Confusable Data for Custom Keyword Spotting	May 29, 2025	Keyword Spottingtext-to-speech	—Unverified	0
Spotlight-TTS: Spotlighting the Style via Voiced-Aware Style Extraction and Style Direction Adjustment for Expressive Text-to-Speech	May 27, 2025	Style Transfertext-to-speech	—Unverified	0
Zero-Shot Streaming Text to Speech Synthesis with Transducer and Auto-Regressive Modeling	May 26, 2025	SentenceSpeech Synthesis	—Unverified	0
KIT's Low-resource Speech Translation Systems for IWSLT2025: System Enhancement with Synthetic Data and Model Regularization	May 26, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
DiEmo-TTS: Disentangled Emotion Representations via Self-Supervised Distillation for Cross-Speaker Emotion Transfer in Text-to-Speech	May 26, 2025	AttributeEmotional Speech Synthesis	—Unverified	0
Accelerating Flow-Matching-Based Text-to-Speech via Empirically Pruned Step Sampling	May 26, 2025	GPUtext-to-speech	—Unverified	0
Accelerating Diffusion-based Text-to-Speech Model Training with Dual Modality Alignment	May 26, 2025	text-to-speechText to Speech	CodeCode Available	2
Revival with Voice: Multi-modal Controllable Text-to-Speech Synthesis	May 25, 2025	Speech Synthesistext-to-speech	—Unverified	0
SpeakStream: Streaming Text-to-Speech with Interleaved Data	May 25, 2025	Decodertext-to-speech	—Unverified	0
CloneShield: A Framework for Universal Perturbation Against Zero-Shot Voice Cloning	May 25, 2025	text-to-speechText to Speech	—Unverified	0
RASMALAI: Resources for Adaptive Speech Modeling in Indian Languages with Accents and Intonations	May 24, 2025	Expressive Speech SynthesisSpeech Synthesis	—Unverified	0
MPE-TTS: Customized Emotion Zero-Shot Text-To-Speech Using Multi-Modal Prompt	May 24, 2025	text-to-speechText to Speech	—Unverified	0
Speechless: Speech Instruction Training Without Speech for Low Resource Languages	May 23, 2025	speech-recognitionSpeech Recognition	CodeCode Available	7
What You Read Isn't What You Hear: Linguistic Sensitivity in Deepfake Speech Detection	May 23, 2025	Face SwappingSensitivity	—Unverified	0
UniTTS: An end-to-end TTS system without decoupling of acoustic and semantic information	May 23, 2025	Large Language ModelQuantization	CodeCode Available	1
Benchmarking Expressive Japanese Character Text-to-Speech with VITS and Style-BERT-VITS2	May 22, 2025	BenchmarkingDialogue Generation	—Unverified	0
From Tens of Hours to Tens of Thousands: Scaling Back-Translation for Speech Recognition	May 22, 2025	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Voicing Personas: Rewriting Persona Descriptions into Style Prompts for Controllable Text-to-Speech	May 21, 2025	text-to-speechText to Speech	—Unverified	0
MIKU-PAL: An Automated and Standardized Multi-Modal Method for Speech Paralinguistic and Affect Labeling	May 21, 2025	Emotion RecognitionFace Detection	—Unverified	0
Segmentation-Variant Codebooks for Preservation of Paralinguistic and Prosodic Information	May 21, 2025	Language ModelingLanguage Modelling	—Unverified	0
Audio Jailbreak: An Open Comprehensive Benchmark for Jailbreaking Large Audio-Language Models	May 21, 2025	Bayesian OptimizationSpeech Synthesis	CodeCode Available	1
Impact of Frame Rates on Speech Tokenizer: A Case Study on Mandarin and English	May 20, 2025	Automatic Speech Recognitionspeech-recognition	—Unverified	0
Improving Noise Robustness of LLM-based Zero-shot TTS via Discrete Acoustic Token Denoising	May 20, 2025	DecoderDenoising	—Unverified	0
SeamlessEdit: Background Noise Aware Zero-Shot Speech Editing with in-Context Enhancement	May 20, 2025	text-to-speechText to Speech	—Unverified	0

Show:10 25 50

← PrevPage 3 of 57Next →

No leaderboard results yet.