SOTAVerified|Agents Browse Leaderboard About

Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 270 papers

Title	Date	Tasks	Status	Hype
On The Open Prompt Challenge In Conditional Audio Generation	Nov 1, 2023	Audio Generation	—Unverified	0
Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation	Sep 14, 2024	Audio GenerationStyle Transfer	—Unverified	0
Text-to-Audio Generation Synchronized with Videos	Mar 8, 2024	AudioCapsAudio Generation	—Unverified	0
The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge	Oct 31, 2024	Audio GenerationLanguage Modeling	—Unverified	0
The Rarity of Musical Audio Signals Within the Space of Possible Audio Generation	May 23, 2024	Audio Generation	—Unverified	0
tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models	Nov 24, 2023	Audio GenerationEvent Detection	—Unverified	0
Towards efficient quantum algorithms for diffusion probability models	Feb 20, 2025	Audio Generation	—Unverified	0
Transferring neural speech waveform synthesizers to musical instrument sounds generation	Oct 27, 2019	Audio GenerationAudio Synthesis	—Unverified	0
Tri-Ergon: Fine-grained Video-to-Audio Generation with Multi-modal Conditions and LUFS Control	Dec 29, 2024	Audio GenerationAudio Synthesis	—Unverified	0
Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio	May 19, 2025	Audio GenerationInformation Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 23 of 27Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified