Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 270 papers

Title	Date	Tasks	Status
Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization	Feb 3, 2024	Audio GenerationDenoising	—Unverified
Bass Accompaniment Generation via Latent Diffusion	Feb 2, 2024	Audio Generation	—Unverified
ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering	Jan 14, 2024	Audio GenerationLanguage Modeling	—Unverified
Masked Audio Generation using a Single Non-Autoregressive Transformer	Jan 9, 2024	Audio Generation	—Unverified
Efficient Parallel Audio Generation using Group Masked Language Modeling	Jan 2, 2024	Audio GenerationComputational Efficiency	—Unverified
Cyclic Learning for Binaural Audio Generation and Localization	Jan 1, 2024	Audio GenerationObject	—Unverified
Audiobox: Unified Audio Generation with Natural Language Prompts	Dec 25, 2023	AudioCapsAudio Generation	—Unverified
Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models	Dec 24, 2023	Audio GenerationDenoising	—Unverified
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling	Dec 8, 2023	Audio Generation	—Unverified
SEFGAN: Harvesting the Power of Normalizing Flows and GANs for Efficient High-Quality Speech Enhancement	Dec 4, 2023	Audio GenerationSpeech Enhancement	—Unverified
tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models	Nov 24, 2023	Audio GenerationEvent Detection	—Unverified
Cross-modal Generative Model for Visual-Guided Binaural Stereo Generation	Nov 13, 2023	AttributeAudio Generation	—Unverified
On The Open Prompt Challenge In Conditional Audio Generation	Nov 1, 2023	Audio Generation	—Unverified
In-Context Prompt Editing For Conditional Audio Generation	Nov 1, 2023	Audio GenerationRetrieval	—Unverified
Audio Editing with Non-Rigid Text Prompts	Oct 19, 2023	Audio GenerationStyle Transfer	—Unverified
FoleyGen: Visually-Guided Audio Generation	Sep 19, 2023	Audio GenerationLanguage Modeling	—Unverified
Enhance audio generation controllability through representation similarity regularization	Sep 15, 2023	Audio GenerationLanguage Modeling	—Unverified
Retrieval-Augmented Text-to-Audio Generation	Sep 14, 2023	AudioCapsAudio Generation	—Unverified
Advances in machine-learning-based sampling motivated by lattice quantum chromodynamics	Sep 3, 2023	Audio Generation	—Unverified
An Initial Exploration: Learning to Generate Realistic Audio for Silent Video	Aug 23, 2023	Audio Generation	CodeCode Available
Audio Generation with Multiple Conditional Diffusion Model	Aug 23, 2023	Audio GenerationDiversity	—Unverified
IteraTTA: An interface for exploring both text prompts and audio priors in generating music with text-to-audio models	Jul 24, 2023	Audio GenerationMusic Generation	—Unverified
A Demand-Driven Perspective on Generative Audio AI	Jul 10, 2023	Audio GenerationSurvey	—Unverified
LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models	Jun 18, 2023	Audio GenerationDisentanglement	—Unverified
MuseCoco: Generating Symbolic Music from Text	May 31, 2023	AttributeAudio Generation	CodeCode Available

Show:10 25 50

← PrevPage 9 of 11Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified