SOTAVerified|Agents Browse Leaderboard About Blog

Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 71–80 of 270 papers

Title	Date	Tasks	Status	Hype	Score
Anytime Sampling for Autoregressive Models via Ordered Autoencoding	Feb 23, 2021	Audio GenerationComputational Efficiency	CodeCode Available	1	5
LLMBind: A Unified Modality-Task Integration Framework	Feb 22, 2024	AI AgentAudio Generation	CodeCode Available	1	5
LooPy: A Research-Friendly Mix Framework for Music Information Retrieval on Electronic Dance Music	May 1, 2023	Audio GenerationInformation Retrieval	CodeCode Available	1	5
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies	Aug 3, 2023	Audio GenerationBeat Tracking	CodeCode Available	1	5
Speech collage: code-switched audio generation by collaging monolingual corpora	Sep 27, 2023	Audio GenerationAutomatic Speech Recognition	CodeCode Available	1	5
It's Raw! Audio Generation with State-Space Models	Feb 20, 2022	Audio GenerationDensity Estimation	CodeCode Available	1	5
LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation	Jun 12, 2024	Audio Generation	CodeCode Available	1	5
RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity Responses	Nov 1, 2021	Audio GenerationGenerative Adversarial Network	CodeCode Available	1	5
An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization	May 26, 2023	Audio GenerationInference Attack	CodeCode Available	1	5
Invisible Watermarking for Audio Generation Diffusion Models	Sep 22, 2023	Audio Generation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 8 of 27Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified