Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 270 papers

Title	Date	Tasks	Status
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling	Dec 8, 2023	Audio Generation	—Unverified
Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio	Jun 12, 2024	Audio Deepfake DetectionAudio Generation	—Unverified
Comprehensive Audio Query Handling System with Integrated Expert Models and Contextual Understanding	Dec 5, 2024	Audio GenerationAutomatic Speech Recognition	—Unverified
Connective Viewpoints of Signal-to-Noise Diffusion Models	Aug 8, 2024	Audio Generation	—Unverified
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation	Nov 27, 2024	Audio Generation	—Unverified
CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions	Jan 28, 2025	Audio captioningAudio Generation	—Unverified
CRASH: Raw Audio Score-based Generative Modeling for Controllable High-resolution Drum Sound Synthesis	Jun 14, 2021	Audio GenerationAudio Synthesis	—Unverified
Creative Text-to-Audio Generation via Synthesizer Programming	Jun 1, 2024	Audio GenerationAudio Synthesis	—Unverified
Cross-modal Generative Model for Visual-Guided Binaural Stereo Generation	Nov 13, 2023	AttributeAudio Generation	—Unverified
Cross-modal variational inference for bijective signal-symbol translation	Feb 10, 2020	Audio GenerationDensity Estimation	—Unverified
Cyclic Learning for Binaural Audio Generation and Localization	Jan 1, 2024	Audio GenerationObject	—Unverified
DeepAudio-V1:Towards Multi-Modal Multi-Stage End-to-End Video to Speech and Audio Generation	Mar 28, 2025	Audio GenerationAudio-Visual Synchronization	—Unverified
DeepSound-V1: Start to Think Step-by-Step in the Audio Generation from Videos	Mar 28, 2025	Audio GenerationLarge Language Model	—Unverified
Demystifying the Communication Characteristics for Distributed Transformer Models	Aug 19, 2024	Audio GenerationGPU	—Unverified
Depth Infused Binaural Audio Generation using Hierarchical Cross-Modal Attention	Aug 10, 2021	Audio GenerationDecoder	—Unverified
DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization	Jun 3, 2025	Audio GenerationAudio Source Separation	—Unverified
Did You Hear That? Introducing AADG: A Framework for Generating Benchmark Data in Audio Anomaly Detection	Oct 4, 2024	Anomaly DetectionAudio Generation	—Unverified
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment	May 22, 2023	AudioCapsAudio Generation	—Unverified
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap	Mar 15, 2025	AudioCapsAudio Generation	—Unverified
Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models	Dec 24, 2023	Audio GenerationDenoising	—Unverified
Discrete Optimal Transport and Voice Conversion	May 7, 2025	Audio GenerationVoice Conversion	—Unverified
DPN-GAN: Inducing Periodic Activations in Generative Adversarial Networks for High-Fidelity Audio Synthesis	May 14, 2025	Audio GenerationAudio Synthesis	—Unverified
DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model	Feb 26, 2025	Audio GenerationLarge Language Model	—Unverified
Efficient Parallel Audio Generation using Group Masked Language Modeling	Jan 2, 2024	Audio GenerationComputational Efficiency	—Unverified
ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering	Jan 14, 2024	Audio GenerationLanguage Modeling	—Unverified
Enhance audio generation controllability through representation similarity regularization	Sep 15, 2023	Audio GenerationLanguage Modeling	—Unverified
EnvSDD: Benchmarking Environmental Sound Deepfake Detection	May 25, 2025	Audio Deepfake DetectionAudio Generation	—Unverified
Exploiting Audio-Visual Consistency with Partial Supervision for Spatial Audio Generation	May 3, 2021	Audio GenerationSelf-Supervised Learning	—Unverified
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer	Sep 17, 2024	Audio GenerationCaption Generation	—Unverified
FastWave: Accelerating Autoregressive Convolutional Neural Networks on FPGA	Feb 9, 2020	Audio GenerationAudio Synthesis	—Unverified
FlexLip: A Controllable Text-to-Lip System	Jun 7, 2022	Audio Generationtext-to-speech	—Unverified
Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows	Jan 1, 2025	Audio GenerationContrastive Learning	—Unverified
FoleyGen: Visually-Guided Audio Generation	Sep 19, 2023	Audio GenerationLanguage Modeling	—Unverified
FreeAudio: Training-Free Timing Planning for Controllable Long-Form Text-to-Audio Generation	Jul 11, 2025	Audio GenerationData Augmentation	—Unverified
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video	Nov 21, 2021	Audio GenerationMulti-Task Learning	—Unverified
Guided Generative Adversarial Neural Network for Representation Learning and High Fidelity Audio Generation using Fewer Labelled Audio Data	Mar 5, 2020	Audio GenerationEmotion Recognition	—Unverified
High-Fidelity Audio Generation and Representation Learning with Guided Adversarial Autoencoder	Jun 1, 2020	Audio GenerationRepresentation Learning	—Unverified
IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling	May 31, 2025	AudioCapsAudio Generation	—Unverified
In-Context Prompt Editing For Conditional Audio Generation	Nov 1, 2023	Audio GenerationRetrieval	—Unverified
Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning	Aug 7, 2020	Audio Generationreinforcement-learning	—Unverified
InfiniteAudio: Infinite-Length Audio Generation with Consistency	Jun 3, 2025	Audio GenerationDenoising	—Unverified
IteraTTA: An interface for exploring both text prompts and audio priors in generating music with text-to-audio models	Jul 24, 2023	Audio GenerationMusic Generation	—Unverified
Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation	Jun 24, 2025	Audio GenerationAudio-Visual Synchronization	—Unverified
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights	Apr 18, 2024	Audio GenerationImage Generation	—Unverified
Learning Source Disentanglement in Neural Audio Codec	Sep 17, 2024	Audio CompressionAudio Generation	—Unverified
Leveraging AI to Generate Audio for User-generated Content in Video Games	Apr 25, 2024	Audio GenerationGame Design	—Unverified
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study	Mar 7, 2023	Audio GenerationBenchmarking	—Unverified
LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation	Jun 13, 2025	Audio Generation	—Unverified
LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models	Jun 18, 2023	Audio GenerationDisentanglement	—Unverified
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens	Mar 28, 2025	Audio GenerationQuantization	—Unverified

Show:10 25 50

← PrevPage 4 of 6Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified