SOTAVerified|Agents Browse Leaderboard About

Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 91–100 of 270 papers

Title	Date	Tasks	Status	Hype
Anytime Sampling for Autoregressive Models via Ordered Autoencoding	Feb 23, 2021	Audio GenerationComputational Efficiency	CodeCode Available	1
Localize to Binauralize: Audio Spatialization From Visual Sound Source Localization	Jan 1, 2021	Audio GenerationSound Source Localization	CodeCode Available	1
Phonetic Posteriorgrams based Many-to-Many Singing Voice Conversion via Adversarial Training	Dec 3, 2020	Audio GenerationDisentanglement	CodeCode Available	1
Audeo: Audio Generation for a Silent Performance Video	Jun 23, 2020	Audio GenerationAudio Synthesis	CodeCode Available	1
Perceiving Music Quality with GANs	Jun 11, 2020	Audio GenerationAudio Quality Assessment	CodeCode Available	1
Unconditional Audio Generation with Generative Adversarial Networks and Cycle Regularization	May 18, 2020	Audio GenerationGenerative Adversarial Network	CodeCode Available	1
GACELA -- A generative adversarial context encoder for long audio inpainting	May 11, 2020	Audio GenerationAudio inpainting	CodeCode Available	1
Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion	Jun 3, 2019	Audio GenerationVoice Conversion	CodeCode Available	1
Adversarial Audio Synthesis	Feb 12, 2018	Audio GenerationAudio Synthesis	CodeCode Available	1
WaveNet: A Generative Model for Raw Audio	Sep 12, 2016	Audio Generationmodel	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 27Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified