Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 270 papers

Title	Date	Tasks	Status	Hype	Score
Taming Data and Transformers for Audio Generation	Jun 27, 2024	Audio captioningAudio Generation	CodeCode Available	2	5
DDSP: Differentiable Digital Signal Processing	Jan 14, 2020	Audio GenerationAudio Synthesis	CodeCode Available	2	5
SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation	May 28, 2024	AudioCapsAudio Generation	CodeCode Available	2	5
SEE-2-SOUND: Zero-Shot Spatial Environment-to-Spatial Sound	Jun 6, 2024	Audio Generation	CodeCode Available	2	5
WavJourney: Compositional Audio Creation with Large Language Models	Jul 26, 2023	Audio Generation	CodeCode Available	2	5
RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity Responses	Nov 1, 2021	Audio GenerationGenerative Adversarial Network	CodeCode Available	1	5
Localize to Binauralize: Audio Spatialization From Visual Sound Source Localization	Jan 1, 2021	Audio GenerationSound Source Localization	CodeCode Available	1	5
Adversarial Audio Synthesis	Feb 12, 2018	Audio GenerationAudio Synthesis	CodeCode Available	1	5
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation	Sep 19, 2023	AudioCapsAudio Generation	CodeCode Available	1	5
LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis	Jul 15, 2024	Audio GenerationAudio Synthesis	CodeCode Available	1	5
LooPy: A Research-Friendly Mix Framework for Music Information Retrieval on Electronic Dance Music	May 1, 2023	Audio GenerationInformation Retrieval	CodeCode Available	1	5
Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation	May 29, 2023	Audio GenerationDenoising	CodeCode Available	1	5
BemaGANv2: A Tutorial and Comparative Survey of GAN-based Vocoders for Long-Term Audio Generation	Jun 11, 2025	Audio GenerationFAD	CodeCode Available	1	5
Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls	Feb 14, 2024	Audio GenerationMusic Generation	CodeCode Available	1	5
LLMBind: A Unified Modality-Task Integration Framework	Feb 22, 2024	AI AgentAudio Generation	CodeCode Available	1	5
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis	Feb 4, 2023	3D geometryAudio Generation	CodeCode Available	1	5
Blow: a single-scale hyperconditioned flow for non-parallel raw-audio voice conversion	Jun 3, 2019	Audio GenerationVoice Conversion	CodeCode Available	1	5
ADIFF: Explaining audio difference using natural language	Feb 6, 2025	AudioCapsAudio captioning	CodeCode Available	1	5
LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation	Jun 12, 2024	Audio Generation	CodeCode Available	1	5
Any-to-Any Generation via Composable Diffusion	May 19, 2023	Audio Generation	CodeCode Available	1	5
It's Raw! Audio Generation with State-Space Models	Feb 20, 2022	Audio GenerationDensity Estimation	CodeCode Available	1	5
Nested Music Transformer: Sequentially Decoding Compound Tokens in Symbolic Music and Audio Generation	Aug 2, 2024	AttributeAudio Generation	CodeCode Available	1	5
Anytime Sampling for Autoregressive Models via Ordered Autoencoding	Feb 23, 2021	Audio GenerationComputational Efficiency	CodeCode Available	1	5
Read, Watch and Scream! Sound Generation from Text and Video	Jul 8, 2024	Audio GenerationTriplet	CodeCode Available	1	5
RiTTA: Modeling Event Relations in Text-to-Audio Generation	Dec 20, 2024	Audio GenerationRelation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 3 of 11Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified