SOTAVerified|Agents Browse Leaderboard About

Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 221–230 of 270 papers

Title	Date	Tasks	Status	Hype
Audio Generation with Multiple Conditional Diffusion Model	Aug 23, 2023	Audio GenerationDiversity	—Unverified	0
IteraTTA: An interface for exploring both text prompts and audio priors in generating music with text-to-audio models	Jul 24, 2023	Audio GenerationMusic Generation	—Unverified	0
A Demand-Driven Perspective on Generative Audio AI	Jul 10, 2023	Audio GenerationSurvey	—Unverified	0
LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models	Jun 18, 2023	Audio GenerationDisentanglement	—Unverified	0
MuseCoco: Generating Symbolic Music from Text	May 31, 2023	AttributeAudio Generation	CodeCode Available	0
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment	May 22, 2023	AudioCapsAudio Generation	—Unverified	0
Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation	Mar 29, 2023	Audio GenerationContrastive Learning	CodeCode Available	0
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study	Mar 7, 2023	Audio GenerationBenchmarking	—Unverified	0
SingSong: Generating musical accompaniments from singing	Jan 30, 2023	Audio GenerationRetrieval	—Unverified	0
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning	Oct 16, 2022	Audio GenerationRepresentation Learning	—Unverified	0

Show:10 25 50

← PrevPage 23 of 27Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified