Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 270 papers

Title	Date	Tasks	Status
Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation	Jun 24, 2025	Audio GenerationAudio-Visual Synchronization	—Unverified
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights	Apr 18, 2024	Audio GenerationImage Generation	—Unverified
Learning Source Disentanglement in Neural Audio Codec	Sep 17, 2024	Audio CompressionAudio Generation	—Unverified
Leveraging AI to Generate Audio for User-generated Content in Video Games	Apr 25, 2024	Audio GenerationGame Design	—Unverified
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study	Mar 7, 2023	Audio GenerationBenchmarking	—Unverified
LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation	Jun 13, 2025	Audio Generation	—Unverified
LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models	Jun 18, 2023	Audio GenerationDisentanglement	—Unverified
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens	Mar 28, 2025	Audio GenerationQuantization	—Unverified
Masked Audio Generation using a Single Non-Autoregressive Transformer	Jan 9, 2024	Audio Generation	—Unverified
MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation	Oct 3, 2024	Audio GenerationDenoising	—Unverified
MEDIC: Zero-shot Music Editing with Disentangled Inversion Control	Jul 18, 2024	Audio Generation	—Unverified
MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization	Sep 5, 2024	Audio Generation	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
Modeling and Driving Human Body Soundfields through Acoustic Primitives	Jul 18, 2024	Audio GenerationNeural Rendering	—Unverified
Music Source Separation in the Waveform Domain	Nov 27, 2019	Audio GenerationAudio Synthesis	—Unverified
Music Style Transfer With Diffusion Model	Apr 23, 2024	Audio Generationmodel	—Unverified
NDVQ: Robust Neural Audio Codec with Normal Distribution-Based Vector Quantization	Sep 19, 2024	Audio CompressionAudio Generation	—Unverified
Neural Granular Sound Synthesis	Aug 4, 2020	Audio Generation	—Unverified
Nonparametric estimation of a factorizable density using diffusion models	Jan 3, 2025	Audio GenerationDensity Estimation	—Unverified
NU-GAN: High resolution neural upsampling with GAN	Oct 22, 2020	Audio GenerationSpeech Synthesis	—Unverified
On Target Representation in Continuous-output Neural Machine Translation	May 1, 2022	Audio GenerationMachine Translation	—Unverified
On the Design of Diffusion-based Neural Speech Codecs	Apr 11, 2025	Audio GenerationImage Generation	—Unverified
On The Open Prompt Challenge In Conditional Audio Generation	Nov 1, 2023	Audio Generation	—Unverified
PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation	Nov 13, 2024	Audio GenerationDiversity	—Unverified
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior	Jun 11, 2021	Audio GenerationDenoising	—Unverified

Show:10 25 50

← PrevPage 10 of 11Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified