SOTAVerified|Agents Browse Leaderboard About

Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 171–180 of 270 papers

Title	Date	Tasks	Status	Hype
Demystifying the Communication Characteristics for Distributed Transformer Models	Aug 19, 2024	Audio GenerationGPU	—Unverified	0
Connective Viewpoints of Signal-to-Noise Diffusion Models	Aug 8, 2024	Audio Generation	—Unverified	0
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2	Jul 19, 2024	Audio GenerationAudio Synthesis	—Unverified	0
Modeling and Driving Human Body Soundfields through Acoustic Primitives	Jul 18, 2024	Audio GenerationNeural Rendering	—Unverified	0
MEDIC: Zero-shot Music Editing with Disentangled Inversion Control	Jul 18, 2024	Audio Generation	—Unverified	0
Video-to-Audio Generation with Hidden Alignment	Jul 10, 2024	Audio GenerationData Augmentation	—Unverified	0
SOAF: Scene Occlusion-aware Neural Acoustic Field	Jul 2, 2024	Audio Generation	—Unverified	0
Provable Statistical Rates for Consistency Diffusion Models	Jun 23, 2024	Audio Generation	—Unverified	0
Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?	Jun 13, 2024	Audio GenerationData Augmentation	CodeCode Available	0
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos	Jun 13, 2024	Audio GenerationRetrieval-augmented Generation	—Unverified	0

Show:10 25 50

← PrevPage 18 of 27Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified