Audio Generation

Audio generation (synthesis) is the task of generating raw audio such as speech.

( Image credit: MelNet )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 270 papers

Title	Date	Tasks	Status
Analyzing Neural Network-Based Generative Diffusion Models through Convex Optimization	Feb 3, 2024	Audio GenerationDenoising	—Unverified
Bass Accompaniment Generation via Latent Diffusion	Feb 2, 2024	Audio Generation	—Unverified
ELLA-V: Stable Neural Codec Language Modeling with Alignment-guided Sequence Reordering	Jan 14, 2024	Audio GenerationLanguage Modeling	—Unverified
Masked Audio Generation using a Single Non-Autoregressive Transformer	Jan 9, 2024	Audio Generation	—Unverified
Efficient Parallel Audio Generation using Group Masked Language Modeling	Jan 2, 2024	Audio GenerationComputational Efficiency	—Unverified
Cyclic Learning for Binaural Audio Generation and Localization	Jan 1, 2024	Audio GenerationObject	—Unverified
Audiobox: Unified Audio Generation with Natural Language Prompts	Dec 25, 2023	AudioCapsAudio Generation	—Unverified
Diffusion-EXR: Controllable Review Generation for Explainable Recommendation via Diffusion Models	Dec 24, 2023	Audio GenerationDenoising	—Unverified
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling	Dec 8, 2023	Audio Generation	—Unverified
SEFGAN: Harvesting the Power of Normalizing Flows and GANs for Efficient High-Quality Speech Enhancement	Dec 4, 2023	Audio GenerationSpeech Enhancement	—Unverified
tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models	Nov 24, 2023	Audio GenerationEvent Detection	—Unverified
Cross-modal Generative Model for Visual-Guided Binaural Stereo Generation	Nov 13, 2023	AttributeAudio Generation	—Unverified
On The Open Prompt Challenge In Conditional Audio Generation	Nov 1, 2023	Audio Generation	—Unverified
In-Context Prompt Editing For Conditional Audio Generation	Nov 1, 2023	Audio GenerationRetrieval	—Unverified
Audio Editing with Non-Rigid Text Prompts	Oct 19, 2023	Audio GenerationStyle Transfer	—Unverified
FoleyGen: Visually-Guided Audio Generation	Sep 19, 2023	Audio GenerationLanguage Modeling	—Unverified
Enhance audio generation controllability through representation similarity regularization	Sep 15, 2023	Audio GenerationLanguage Modeling	—Unverified
Retrieval-Augmented Text-to-Audio Generation	Sep 14, 2023	AudioCapsAudio Generation	—Unverified
Advances in machine-learning-based sampling motivated by lattice quantum chromodynamics	Sep 3, 2023	Audio Generation	—Unverified
An Initial Exploration: Learning to Generate Realistic Audio for Silent Video	Aug 23, 2023	Audio Generation	CodeCode Available
Audio Generation with Multiple Conditional Diffusion Model	Aug 23, 2023	Audio GenerationDiversity	—Unverified
IteraTTA: An interface for exploring both text prompts and audio priors in generating music with text-to-audio models	Jul 24, 2023	Audio GenerationMusic Generation	—Unverified
A Demand-Driven Perspective on Generative Audio AI	Jul 10, 2023	Audio GenerationSurvey	—Unverified
LM-VC: Zero-shot Voice Conversion via Speech Generation based on Language Models	Jun 18, 2023	Audio GenerationDisentanglement	—Unverified
MuseCoco: Generating Symbolic Music from Text	May 31, 2023	AttributeAudio Generation	CodeCode Available
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment	May 22, 2023	AudioCapsAudio Generation	—Unverified
Sounding Video Generator: A Unified Framework for Text-guided Sounding Video Generation	Mar 29, 2023	Audio GenerationContrastive Learning	CodeCode Available
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study	Mar 7, 2023	Audio GenerationBenchmarking	—Unverified
SingSong: Generating musical accompaniments from singing	Jan 30, 2023	Audio GenerationRetrieval	—Unverified
SUPERB @ SLT 2022: Challenge on Generalization and Efficiency of Self-Supervised Speech Representation Learning	Oct 16, 2022	Audio GenerationRepresentation Learning	—Unverified
Audio Deepfake Attribution: An Initial Dataset and Investigation	Aug 21, 2022	Audio GenerationBinary Classification	—Unverified
Adversarial Audio Synthesis with Complex-valued Polynomial Networks	Jun 14, 2022	Audio GenerationAudio Synthesis	—Unverified
FlexLip: A Controllable Text-to-Lip System	Jun 7, 2022	Audio Generationtext-to-speech	—Unverified
On Target Representation in Continuous-output Neural Machine Translation	May 1, 2022	Audio GenerationMachine Translation	—Unverified
Streamable Neural Audio Synthesis With Non-Causal Convolutions	Apr 14, 2022	Audio GenerationAudio Synthesis	—Unverified
ADD 2022: the First Audio Deep Synthesis Detection Challenge	Feb 17, 2022	Audio Deepfake DetectionAudio Generation	—Unverified
Soundify: Matching Sound Effects to Video	Dec 17, 2021	Audio GenerationImage Classification	—Unverified
Geometry-Aware Multi-Task Learning for Binaural Audio Generation from Video	Nov 21, 2021	Audio GenerationMulti-Task Learning	—Unverified
An investigation of pre-upsampling generative modelling and Generative Adversarial Networks in audio super resolution	Sep 30, 2021	Audio GenerationAudio Super-Resolution	—Unverified
Depth Infused Binaural Audio Generation using Hierarchical Cross-Modal Attention	Aug 10, 2021	Audio GenerationDecoder	—Unverified
CRASH: Raw Audio Score-based Generative Modeling for Controllable High-resolution Drum Sound Synthesis	Jun 14, 2021	Audio GenerationAudio Synthesis	—Unverified
PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior	Jun 11, 2021	Audio GenerationDenoising	—Unverified
Exploiting Audio-Visual Consistency with Partial Supervision for Spatial Audio Generation	May 3, 2021	Audio GenerationSelf-Supervised Learning	—Unverified
Visually Informed Binaural Audio Generation without Binaural Audios	Apr 13, 2021	Audio Generation	—Unverified
A Comprehensive Survey on Deep Music Generation: Multi-level Representations, Algorithms, Evaluations, and Future Directions	Nov 13, 2020	Audio GenerationMusic Generation	—Unverified
NU-GAN: High resolution neural upsampling with GAN	Oct 22, 2020	Audio GenerationSpeech Synthesis	—Unverified
Audio Dequantization for High Fidelity Audio Generation in Flow-based Neural Vocoder	Aug 16, 2020	Audio DequantizationAudio Generation	—Unverified
Incremental Text to Speech for Neural Sequence-to-Sequence Models using Reinforcement Learning	Aug 7, 2020	Audio Generationreinforcement-learning	—Unverified
Neural Granular Sound Synthesis	Aug 4, 2020	Audio Generation	—Unverified
Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating Source Separation	Jul 20, 2020	Audio Generation	—Unverified

Show:10 25 50

← PrevPage 5 of 6Next →

All datasets AudioCaps Classical music, 5 seconds at 12 kHz Symphony music

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioGen	FD_openl3	185.53	—	Unverified
2	AudioLDM2-large	FD_openl3	158.04	—	Unverified
3	Stable Audio 2.0	FD_openl3	110.62	—	Unverified
4	Stable Audio	FD_openl3	103.66	—	Unverified
5	ETTA	FD_openl3	80.13	—	Unverified
6	TangoFlux-base	FD_openl3	79.7	—	Unverified
7	Stable Audio Open	FD_openl3	78.24	—	Unverified
8	TangoFlux	FD_openl3	75.1	—	Unverified
9	ETTA-FT-AC-100k	FD_openl3	61.79	—	Unverified
10	Diffsound	FAD	7.75	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAB-Encodec (Ours)	Bits per byte	40	—	Unverified
2	Sparse Transformer 152M (strided)	Bits per byte	1.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SymphonyNet	Human listening average results	3.5	—	Unverified