SOTAVerified|Agents Browse Leaderboard About

Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 121–130 of 270 papers

Title	Date	Tasks	Status	Hype
Enhance audio generation controllability through representation similarity regularization	Sep 15, 2023	Audio GenerationLanguage Modeling	—Unverified	0
ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering	Jan 14, 2024	Audio GenerationLanguage Modeling	—Unverified	0
Efficient Parallel Audio Generation using Group Masked Language Modeling	Jan 2, 2024	Audio GenerationComputational Efficiency	—Unverified	0
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video	Nov 21, 2021	Audio GenerationMulti-Task Learning	—Unverified	0
AudioX: Diffusion Transformer for Anything-to-Audio Generation	Mar 13, 2025	Audio GenerationMusic Generation	—Unverified	0
Guided Generative Adversarial Neural Network for Representation Learning and High Fidelity Audio Generation using Fewer Labelled Audio Data	Mar 5, 2020	Audio GenerationEmotion Recognition	—Unverified	0
DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model	Feb 26, 2025	Audio GenerationLarge Language Model	—Unverified	0
DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis	May 14, 2025	Audio GenerationAudio Synthesis	—Unverified	0
Discrete Optimal Transport and Voice Conversion	May 7, 2025	Audio GenerationVoice Conversion	—Unverified	0
AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion	May 28, 2025	AudioCapsAudio Generation	—Unverified	0

Show:10 25 50

← PrevPage 13 of 27Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified