Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 270 papers

Title	Date	Tasks	Status
Progressive Upsampling Audio Synthesis via Effective Adversarial Training	Sep 25, 2019	Audio GenerationAudio Synthesis	—Unverified
Prompt-guided Precise Audio Editing with Diffusion Models	May 11, 2024	Audio Generation	—Unverified
Provable Statistical Rates for Consistency Diffusion Models	Jun 23, 2024	Audio Generation	—Unverified
PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models	Sep 20, 2024	Audio GenerationAudio Synthesis	—Unverified
ReelWave: Multi-Agentic Movie Sound Generation through Multimodal LLM Conversation	Mar 10, 2025	Audio Generation	—Unverified
Retrieval-Augmented Text-to-Audio Generation	Sep 14, 2023	AudioCapsAudio Generation	—Unverified
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners	Feb 27, 2024	Audio GenerationDenoising	—Unverified
SEFGAN: Harvesting the Power of Normalizing Flows and GANs for Efficient High-Quality Speech Enhancement	Dec 4, 2023	Audio GenerationSpeech Enhancement	—Unverified
Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating Source Separation	Jul 20, 2020	Audio Generation	—Unverified
SingSong: Generating musical accompaniments from singing	Jan 30, 2023	Audio GenerationRetrieval	—Unverified
Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance	Dec 24, 2024	Audio GenerationVideo Alignment	—Unverified
SOAF: Scene Occlusion-aware Neural Acoustic Field	Jul 2, 2024	Audio Generation	—Unverified
Soundify: Matching Sound Effects to Video	Dec 17, 2021	Audio GenerationImage Classification	—Unverified
Sounding that Object: Interactive Object-Aware Image to Audio Generation	Jun 4, 2025	Audio GenerationImage Segmentation	—Unverified
Speech Audio Generation from dynamic MRI via a Knowledge Enhanced Conditional Variational Autoencoder	Mar 9, 2025	Audio GenerationDenoising	—Unverified
YingSound: Video-Guided Sound Effects Generation with Multi-modal Chain-of-Thought Controls	Dec 12, 2024	Audio Generation	—Unverified
Multimodal Cinematic Video Synthesis Using Text-to-Image and Audio Generation Models	Apr 6, 2025	Audio GenerationGPU	—Unverified
A Comprehensive Survey on Deep Music Generation: Multi-level Representations, Algorithms, Evaluations, and Future Directions	Nov 13, 2020	Audio GenerationMusic Generation	—Unverified
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos	Jun 13, 2024	Audio GenerationRetrieval-augmented Generation	—Unverified
ADD 2022: the First Audio Deep Synthesis Detection Challenge	Feb 17, 2022	Audio Deepfake DetectionAudio Generation	—Unverified
A Demand-Driven Perspective on Generative Audio AI	Jul 10, 2023	Audio GenerationSurvey	—Unverified
Advances in machine-learning-based sampling motivated by lattice quantum chromodynamics	Sep 3, 2023	Audio Generation	—Unverified
Adversarial Audio Synthesis with Complex-valued Polynomial Networks	Jun 14, 2022	Audio GenerationAudio Synthesis	—Unverified
Analyzing and Mitigating Inconsistency in Discrete Audio Tokens for Neural Codec Language Models	Sep 28, 2024	Audio GenerationLanguage Modeling	—Unverified
Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization	Feb 3, 2024	Audio GenerationDenoising	—Unverified
Animate and Sound an Image	Jan 1, 2025	Audio Generation	—Unverified
An investigation of pre-upsampling generative modelling and Generative Adversarial Networks in audio super resolution	Sep 30, 2021	Audio GenerationAudio Super-Resolution	—Unverified
Applications and Advances of Artificial Intelligence in Music Generation:A Review	Sep 3, 2024	Audio GenerationMusic Generation	—Unverified
A Survey of Automatic Evaluation Methods on Text, Visual and Speech Generations	Jun 6, 2025	Audio GenerationText Generation	—Unverified
A Survey of Deep Learning Audio Generation Methods	May 31, 2024	Audio GenerationDeep Learning	—Unverified
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition	Oct 4, 2024	Audio GenerationLanguage Modeling	—Unverified
Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation	Nov 7, 2024	Audio GenerationLarge Language Model	—Unverified
Audiobox: Unified Audio Generation with Natural Language Prompts	Dec 25, 2023	AudioCapsAudio Generation	—Unverified
AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions	Sep 19, 2024	Audio Generation	—Unverified
Audio Dequantization for High Fidelity Audio Generation in Flow-based Neural Vocoder	Aug 16, 2020	Audio DequantizationAudio Generation	—Unverified
Audio Editing with Non-Rigid Text Prompts	Oct 19, 2023	Audio GenerationStyle Transfer	—Unverified
Audio Generation with Multiple Conditional Diffusion Model	Aug 23, 2023	Audio GenerationDiversity	—Unverified
AudioSpa: Spatializing Sound Events with Text	Feb 16, 2025	Audio GenerationData Augmentation	—Unverified
AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion	May 28, 2025	AudioCapsAudio Generation	—Unverified
AudioX: Diffusion Transformer for Anything-to-Audio Generation	Mar 13, 2025	Audio GenerationMusic Generation	—Unverified
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis	Jun 8, 2024	Audio GenerationDecoder	—Unverified
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation	Jun 11, 2024	Audio GenerationVideo Generation	—Unverified
Bass Accompaniment Generation via Latent Diffusion	Feb 2, 2024	Audio Generation	—Unverified
Bespoke Non-Stationary Solvers for Fast Sampling of Diffusion and Flow Models	Mar 2, 2024	Audio GenerationConditional Image Generation	—Unverified
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation	Oct 14, 2024	Audio Generationmultimodal generation	—Unverified
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2	Jul 19, 2024	Audio GenerationAudio Synthesis	—Unverified
C3LLM: Conditional Multimodal Content Generation Using Large Language Models	May 25, 2024	Audio GenerationLanguage Modelling	—Unverified
CCStereo: Audio-Visual Contextual and Contrastive Learning for Binaural Audio Generation	Jan 6, 2025	Audio GenerationContrastive Learning	—Unverified
Classification Diffusion Models: Revitalizing Density Ratio Estimation	Feb 15, 2024	Audio GenerationClassification	—Unverified
CMCGAN: A Uniform Framework for Cross-Modal Visual-Audio Mutual Generation	Nov 22, 2017	Audio GenerationGenerative Adversarial Network	—Unverified

Show:10 25 50

← PrevPage 3 of 6Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified