Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 270 papers

Title	Date	Tasks	Status
Video-Guided Foley Sound Generation with Multimodal Controls	Nov 26, 2024	Audio Generation	—Unverified
PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation	Nov 13, 2024	Audio GenerationDiversity	—Unverified
Audiobox TTA-RAG: Improving Zero-Shot and Few-Shot Text-To-Audio with Retrieval-Augmented Generation	Nov 7, 2024	Audio GenerationLarge Language Model	—Unverified
The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge	Oct 31, 2024	Audio GenerationLanguage Modeling	—Unverified
Challenge on Sound Scene Synthesis: Evaluating Text-to-Audio Generation	Oct 23, 2024	Audio Generation	CodeCode Available
Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation	Oct 14, 2024	Audio Generationmultimodal generation	—Unverified
Did You Hear That? Introducing AADG: A Framework for Generating Benchmark Data in Audio Anomaly Detection	Oct 4, 2024	Anomaly DetectionAudio Generation	—Unverified
Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition	Oct 4, 2024	Audio GenerationLanguage Modeling	—Unverified
MDSGen: Fast and Efficient Masked Diffusion Temporal-Aware Transformers for Open-Domain Sound Generation	Oct 3, 2024	Audio GenerationDenoising	—Unverified
Analyzing and Mitigating Inconsistency in Discrete Audio Tokens for Neural Codec Language Models	Sep 28, 2024	Audio GenerationLanguage Modeling	—Unverified
Video-to-Audio Generation with Fine-grained Temporal Semantics	Sep 23, 2024	Audio GenerationVideo Generation	—Unverified
PTQ4ADM: Post-Training Quantization for Efficient Text Conditional Audio Diffusion Models	Sep 20, 2024	Audio GenerationAudio Synthesis	—Unverified
AudioComposer: Towards Fine-grained Audio Generation with Natural Language Descriptions	Sep 19, 2024	Audio Generation	—Unverified
NDVQ: Robust Neural Audio Codec with Normal Distribution-Based Vector Quantization	Sep 19, 2024	Audio CompressionAudio Generation	—Unverified
Learning Source Disentanglement in Neural Audio Codec	Sep 17, 2024	Audio CompressionAudio Generation	—Unverified
EzAudio: Enhancing Text-to-Audio Generation with Efficient Diffusion Transformer	Sep 17, 2024	Audio GenerationCaption Generation	—Unverified
Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation	Sep 14, 2024	Audio GenerationStyle Transfer	—Unverified
MetaBGM: Dynamic Soundtrack Transformation For Continuous Multi-Scene Experiences With Ambient Awareness And Personalization	Sep 5, 2024	Audio Generation	—Unverified
Applications and Advances of Artificial Intelligence in Music Generation:A Review	Sep 3, 2024	Audio GenerationMusic Generation	—Unverified
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound	Aug 21, 2024	Audio GenerationAudio Synthesis	—Unverified
Demystifying the Communication Characteristics for Distributed Transformer Models	Aug 19, 2024	Audio GenerationGPU	—Unverified
Connective Viewpoints of Signal-to-Noise Diffusion Models	Aug 8, 2024	Audio Generation	—Unverified
Braille-to-Speech Generator: Audio Generation Based on Joint Fine-Tuning of CLIP and Fastspeech2	Jul 19, 2024	Audio GenerationAudio Synthesis	—Unverified
Modeling and Driving Human Body Soundfields through Acoustic Primitives	Jul 18, 2024	Audio GenerationNeural Rendering	—Unverified
MEDIC: Zero-shot Music Editing with Disentangled Inversion Control	Jul 18, 2024	Audio Generation	—Unverified
Video-to-Audio Generation with Hidden Alignment	Jul 10, 2024	Audio GenerationData Augmentation	—Unverified
SOAF: Scene Occlusion-aware Neural Acoustic Field	Jul 2, 2024	Audio Generation	—Unverified
Provable Statistical Rates for Consistency Diffusion Models	Jun 23, 2024	Audio Generation	—Unverified
Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling?	Jun 13, 2024	Audio GenerationData Augmentation	CodeCode Available
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos	Jun 13, 2024	Audio GenerationRetrieval-augmented Generation	—Unverified
Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio	Jun 12, 2024	Audio Deepfake DetectionAudio Generation	—Unverified
AV-DiT: Efficient Audio-Visual Diffusion Transformer for Joint Audio and Video Generation	Jun 11, 2024	Audio GenerationVideo Generation	—Unverified
Autoregressive Diffusion Transformer for Text-to-Speech Synthesis	Jun 8, 2024	Audio GenerationDecoder	—Unverified
Stochastic Diffusion: A Diffusion Probabilistic Model for Stochastic Time Series Forecasting	Jun 5, 2024	Audio GenerationTime Series	CodeCode Available
Creative Text-to-Audio Generation via Synthesizer Programming	Jun 1, 2024	Audio GenerationAudio Synthesis	—Unverified
A Survey of Deep Learning Audio Generation Methods	May 31, 2024	Audio GenerationDeep Learning	—Unverified
C3LLM: Conditional Multimodal Content Generation Using Large Language Models	May 25, 2024	Audio GenerationLanguage Modelling	—Unverified
Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation	May 23, 2024	Audio GenerationDenoising	—Unverified
The Rarity of Musical Audio Signals Within the Space of Possible Audio Generation	May 23, 2024	Audio Generation	—Unverified
Prompt-guided Precise Audio Editing with Diffusion Models	May 11, 2024	Audio Generation	—Unverified
Leveraging AI to Generate Audio for User-generated Content in Video Games	Apr 25, 2024	Audio GenerationGame Design	—Unverified
Music Style Transfer With Diffusion Model	Apr 23, 2024	Audio Generationmodel	—Unverified
LVNS-RAVE: Diversified audio generation with RAVE and Latent Vector Novelty Search	Apr 22, 2024	Audio GenerationDeep Learning	CodeCode Available
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights	Apr 18, 2024	Audio GenerationImage Generation	—Unverified
Synthetic training set generation using text-to-audio models for environmental sound classification	Mar 26, 2024	Audio GenerationClassification	—Unverified
Text-to-Audio Generation Synchronized with Videos	Mar 8, 2024	AudioCapsAudio Generation	—Unverified
(Un)paired signal-to-signal translation with 1D conditional GANs	Mar 5, 2024	Audio GenerationGenerative Adversarial Network	—Unverified
Bespoke Non-Stationary Solvers for Fast Sampling of Diffusion and Flow Models	Mar 2, 2024	Audio GenerationConditional Image Generation	—Unverified
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners	Feb 27, 2024	Audio GenerationDenoising	—Unverified
Classification Diffusion Models: Revitalizing Density Ratio Estimation	Feb 15, 2024	Audio GenerationClassification	—Unverified

Show:10 25 50

← PrevPage 4 of 6Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified