Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–270 of 270 papers

Title	Date	Tasks	Status
Conditional WaveGAN	Sep 27, 2018	Audio Generation	CodeCode Available
Audio Super Resolution using Neural Networks	Aug 2, 2017	Audio GenerationAudio Super-Resolution	CodeCode Available
Smoothed Dilated Convolutions for Improved Dense Prediction	Aug 27, 2018	Audio GenerationMachine Translation	CodeCode Available
Conditional Diffusion Models with Classifier-Free Gibbs-like Guidance	May 27, 2025	Audio GenerationDenoising	CodeCode Available
AudioGenX: Explainability on Text-to-Audio Generative Models	Feb 1, 2025	Audio Generationcounterfactual	CodeCode Available
Audio inpainting of music by means of neural networks	Oct 29, 2018	Audio GenerationAudio inpainting	CodeCode Available
Assisted Sound Sample Generation with Musical Conditioning in Adversarial Auto-Encoders	Apr 12, 2019	AttributeAudio Generation	CodeCode Available
Seq-U-Net: A One-Dimensional Causal U-Net for Efficient Sequence Modelling	Nov 14, 2019	Audio GenerationCausal Language Modeling	CodeCode Available
Score and Lyrics-Free Singing Voice Generation	Dec 26, 2019	Audio GenerationSinging Voice Synthesis	CodeCode Available
SampleRNN: An Unconditional End-to-End Neural Audio Generation Model	Dec 22, 2016	Audio GenerationSpeech Synthesis	CodeCode Available
Retrieval-Augmented Neural Field for HRTF Upsampling and Personalization	Jan 22, 2025	Audio GenerationRetrieval	CodeCode Available
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior	Jun 11, 2021	Audio GenerationDenoising	CodeCode Available
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation	Oct 23, 2024	Audio Generation	CodeCode Available
Music Source Separation in the Waveform Domain	Nov 27, 2019	Audio GenerationAudio Synthesis	CodeCode Available
MuseCoco: Generating Symbolic Music from Text	May 31, 2023	AttributeAudio Generation	CodeCode Available
Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?	Jun 13, 2024	Audio GenerationData Augmentation	CodeCode Available
An Initial Exploration: Learning to Generate Realistic Audio for Silent Video	Aug 23, 2023	Audio Generation	CodeCode Available
MelNet: A Generative Model for Audio in the Frequency Domain	Jun 4, 2019	Audio GenerationMusic Generation	CodeCode Available
LVNS-RAVE: Diversified audio generation with RAVE and Latent Vector Novelty Search	Apr 22, 2024	Audio GenerationDeep Learning	CodeCode Available
GANSynth: Adversarial Neural Audio Synthesis	Feb 23, 2019	Audio GenerationAudio Synthesis	CodeCode Available

Show:10 25 50

← PrevPage 6 of 6Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified