SOTAVerified|Agents Browse Leaderboard About Blog

Text to Speech

import gTTS import os def text_to_speech_kurdish(text, output_file="output.mp3"): # گۆڕینی نووسین بۆ دەنگ بە زمانی کوردی (هەڵبژاردنی زمانی "ku" بۆ کوردی) tts = gTTS(text=text, lang='ku', slow=False) tts.save(output_file) os.system(f"start {output_file}") # کردنەوەی فایلە دەنگییەکە (لە Windows) # نموونە: text_to_speech_kurdish("سڵاو، ئەمە دەنگی منە بە زمانی کوردی.")

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–475 of 1419 papers

Title	Date	Tasks	Status
Continuous Speech Synthesis using per-token Latent Diffusion	Oct 21, 2024	Image GenerationQuantization	—Unverified
Multi-Source Spatial Knowledge Understanding for Immersive Visual Text-to-Speech	Oct 18, 2024	object-detectionObject Detection	CodeCode Available
A Unified Framework for Collecting Text-to-Speech Synthesis Datasets for 22 Indian Languages	Oct 18, 2024	Speech Synthesistext-to-speech	—Unverified
Enhancing Crowdsourced Audio for Text-to-Speech Models	Oct 17, 2024	Denoisingtext-to-speech	—Unverified
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation	Oct 17, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
DurIAN-E 2: Duration Informed Attention Network with Adaptive Variational Autoencoder and Adversarial Learning for Expressive Text-to-Speech Synthesis	Oct 17, 2024	Speech Synthesistext-to-speech	—Unverified
DART: Disentanglement of Accent and Speaker Representation in Multispeaker Text-to-Speech	Oct 17, 2024	DisentanglementQuantization	—Unverified
ERVQ: Enhanced Residual Vector Quantization with Intra-and-Inter-Codebook Optimization for Neural Audio Codecs	Oct 16, 2024	DiversityOnline Clustering	—Unverified
DMOSpeech: Direct Metric Optimization via Distilled Diffusion Model in Zero-Shot Speech Synthesis	Oct 14, 2024	DenoisingSpeaker Verification	—Unverified
IsoChronoMeter: A simple and effective isochronic translation evaluation metric	Oct 14, 2024	Machine Translationtext-to-speech	CodeCode Available
Emphasis Rendering for Conversational Text-to-Speech with Multi-modal Multi-scale Context Modeling	Oct 12, 2024	text-to-speechText to Speech	CodeCode Available
Unsupervised Data Validation Methods for Efficient Model Training	Oct 10, 2024	Data Augmentationmodel	—Unverified
Can DeepFake Speech be Reliably Detected?	Oct 9, 2024	Face SwappingMisinformation	—Unverified
Efficient training strategies for natural sounding speech synthesis and speaker adaptation based on FastPitch	Oct 9, 2024	Speech Synthesistext-to-speech	—Unverified
Bahasa Harmony: A Comprehensive Dataset for Bahasa Text-to-Speech Synthesis with Discrete Codec Modeling of EnGen-TTS	Oct 9, 2024	DiversitySpeech Synthesis	—Unverified
SegINR: Segment-wise Implicit Neural Representation for Sequence Alignment in Neural Text-to-Speech	Oct 7, 2024	Computational Efficiencytext-to-speech	—Unverified
HALL-E: Hierarchical Neural Codec Language Model for Minute-Long Zero-Shot Text-to-Speech Synthesis	Oct 6, 2024	Language ModelingLanguage Modelling	—Unverified
Adversarial Attacks and Robust Defenses in Speaker Embedding based Zero-Shot Text-to-Speech System	Oct 5, 2024	Adversarial PurificationSpeech Synthesis	—Unverified
MultiVerse: Efficient and Expressive Zero-Shot Multi-Task Text-to-Speech	Oct 4, 2024	DisentanglementSpeech Synthesis	—Unverified
Textless Streaming Speech-to-Speech Translation using Semantic Speech Tokens	Oct 4, 2024	Language ModelingLanguage Modelling	—Unverified
Generative Semantic Communication for Text-to-Speech Synthesis	Oct 4, 2024	QuantizationSemantic Communication	—Unverified
Augmentation through Laundering Attacks for Audio Spoof Detection	Oct 1, 2024	Data AugmentationFace Swapping	—Unverified
Accent conversion using discrete units with parallel data synthesized from controllable accented TTS	Sep 30, 2024	Data AugmentationSpeech Synthesis	—Unverified
Word-wise intonation model for cross-language TTS systems	Sep 30, 2024	Dynamic Time WarpingProsody Prediction	—Unverified
FluentEditor2: Text-based Speech Editing by Modeling Multi-Scale Acoustic and Prosody Consistency	Sep 28, 2024	Text to Speech	CodeCode Available

Show:10 25 50

← PrevPage 19 of 57Next →

No leaderboard results yet.