Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 270 papers

Title	Date	Tasks	Status
FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation	Jul 11, 2025	Audio GenerationData Augmentation	—Unverified
Step-by-Step Video-to-Audio Synthesis via Negative Audio Guidance	Jun 26, 2025	Audio GenerationAudio Synthesis	—Unverified
Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation	Jun 24, 2025	Audio GenerationAudio-Visual Synchronization	—Unverified
ViSAGe: Video-to-Spatial Audio Generation	Jun 13, 2025	Audio Generation	—Unverified
LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation	Jun 13, 2025	Audio Generation	—Unverified
A Survey of Automatic Evaluation Methods on Text, Visual and Speech Generations	Jun 6, 2025	Audio GenerationText Generation	—Unverified
Sounding that Object: Interactive Object-Aware Image to Audio Generation	Jun 4, 2025	Audio GenerationImage Segmentation	—Unverified
InfiniteAudio: Infinite-Length Audio Generation with Consistency	Jun 3, 2025	Audio GenerationDenoising	—Unverified
DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization	Jun 3, 2025	Audio GenerationAudio Source Separation	—Unverified
IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling	May 31, 2025	AudioCapsAudio Generation	—Unverified
XMAD-Bench: Cross-Domain Multilingual Audio Deepfake Benchmark	May 31, 2025	Audio GenerationFace Swapping	CodeCode Available
AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion	May 28, 2025	AudioCapsAudio Generation	—Unverified
Conditional Diffusion Models with Classifier-Free Gibbs-like Guidance	May 27, 2025	Audio GenerationDenoising	CodeCode Available
EnvSDD: Benchmarking Environmental Sound Deepfake Detection	May 25, 2025	Audio Deepfake DetectionAudio Generation	—Unverified
MMMG: a Comprehensive and Reliable Evaluation Suite for Multitask Multimodal Generation	May 23, 2025	Audio GenerationBenchmarking	—Unverified
Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio	May 19, 2025	Audio GenerationInformation Retrieval	—Unverified
DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis	May 14, 2025	Audio GenerationAudio Synthesis	—Unverified
TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining	May 12, 2025	Audio captioningAudio Generation	—Unverified
Discrete Optimal Transport and Voice Conversion	May 7, 2025	Audio GenerationVoice Conversion	—Unverified
Wasserstein Convergence of Score-based Generative Models under Semiconvexity and Discontinuous Gradients	May 6, 2025	Audio GenerationDenoising	—Unverified
On the Design of Diffusion-based Neural Speech Codecs	Apr 11, 2025	Audio GenerationImage Generation	—Unverified
Multimodal Cinematic Video Synthesis Using Text-to-Image and Audio Generation Models	Apr 6, 2025	Audio GenerationGPU	—Unverified
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens	Mar 28, 2025	Audio GenerationQuantization	—Unverified
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos	Mar 28, 2025	Audio GenerationLarge Language Model	—Unverified
DeepAudio-V1:Towards Multi-Modal Multi-Stage End-to-End Video to Speech and Audio Generation	Mar 28, 2025	Audio GenerationAudio-Visual Synchronization	—Unverified
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap	Mar 15, 2025	AudioCapsAudio Generation	—Unverified
AudioX: Diffusion Transformer for Anything-to-Audio Generation	Mar 13, 2025	Audio GenerationMusic Generation	—Unverified
TA-V2A: Textually Assisted Video-to-Audio Generation	Mar 12, 2025	Audio Generation	—Unverified
Synchronized Video-to-Audio Generation via Mel Quantization-Continuum Decomposition	Mar 10, 2025	Audio GenerationQuantization	—Unverified
ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation	Mar 10, 2025	Audio Generation	—Unverified
Speech Audio Generation from dynamic MRI via a Knowledge Enhanced Conditional Variational Autoencoder	Mar 9, 2025	Audio GenerationDenoising	—Unverified
DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model	Feb 26, 2025	Audio GenerationLarge Language Model	—Unverified
Towards efficient quantum algorithms for diffusion probability models	Feb 20, 2025	Audio Generation	—Unverified
AudioSpa: Spatializing Sound Events with Text	Feb 16, 2025	Audio GenerationData Augmentation	—Unverified
UniForm: A Unified Multi-Task Diffusion Transformer for Audio-Video Generation	Feb 6, 2025	Audio GenerationDiversity	—Unverified
AudioGenX: Explainability on Text-to-Audio Generative Models	Feb 1, 2025	Audio Generationcounterfactual	CodeCode Available
CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions	Jan 28, 2025	Audio captioningAudio Generation	—Unverified
Retrieval-Augmented Neural Field for HRTF Upsampling and Personalization	Jan 22, 2025	Audio GenerationRetrieval	CodeCode Available
CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation	Jan 6, 2025	Audio GenerationContrastive Learning	—Unverified
Nonparametric estimation of a factorizable density using diffusion models	Jan 3, 2025	Audio GenerationDensity Estimation	—Unverified
Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows	Jan 1, 2025	Audio GenerationContrastive Learning	—Unverified
Animate and Sound an Image	Jan 1, 2025	Audio Generation	—Unverified
Tri-Ergon: Fine-grained Video-to-Audio Generation with Multi-modal Conditions and LUFS Control	Dec 29, 2024	Audio GenerationAudio Synthesis	—Unverified
VoiceDiT: Dual-Condition Diffusion Transformer for Environment-Aware Speech Synthesis	Dec 26, 2024	Audio GenerationSpeech Synthesis	—Unverified
Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance	Dec 24, 2024	Audio GenerationVideo Alignment	—Unverified
FolAI: Synchronized Foley Sound Generation with Semantic and Temporal Alignment	Dec 19, 2024	Audio Generation	—Unverified
VinTAGe: Joint Video and Text Conditioning for Holistic Audio Generation	Dec 14, 2024	Audio Generation	—Unverified
YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls	Dec 12, 2024	Audio Generation	—Unverified
Comprehensive Audio Query Handling System with Integrated Expert Models and Contextual Understanding	Dec 5, 2024	Audio GenerationAutomatic Speech Recognition	—Unverified
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation	Nov 27, 2024	Audio Generation	—Unverified

Show:10 25 50

← PrevPage 3 of 6Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified