Text-to-Music Generation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–37 of 37 papers

Title	Date	Tasks	Status	Hype	Score
FLUX that Plays Music	Sep 1, 2024	Music GenerationText-to-Music Generation	CodeCode Available	14	5
Fast Timing-Conditioned Latent Audio Diffusion	Feb 7, 2024	Audio GenerationGPU	CodeCode Available	7	5
Stable Audio Open	Jul 19, 2024	Audio GenerationText-to-Music Generation	CodeCode Available	7	5
Simple and Controllable Music Generation	Jun 8, 2023	Language ModelingLanguage Modelling	CodeCode Available	6	5
MusicLM: Generating Music From Text	Jan 26, 2023	Music GenerationText-to-Music Generation	CodeCode Available	6	5
Improving Text-To-Audio Models with Synthetic Captions	Jun 18, 2024	AudioCapsAudio captioning	CodeCode Available	5	5
Quality-aware Masked Diffusion Transformer for Enhanced Music Generation	May 24, 2024	DiversityMusic Generation	CodeCode Available	4	5
AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining	Aug 10, 2023	Audio GenerationIn-Context Learning	CodeCode Available	4	5
Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion	Jan 27, 2023	GPUImage Generation	CodeCode Available	4	5
TokenSynth: A Token-based Neural Synthesizer for Instrument Cloning and Text-to-Instrument	Feb 13, 2025	Audio GenerationDecoder	CodeCode Available	2	5
ETTA: Elucidating the Design Space of Text-to-Audio Models	Dec 26, 2024	AudioCapsAudio captioning	CodeCode Available	2	5
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models	Jun 7, 2024	FADText-to-Music Generation	CodeCode Available	2	5
Melody-Guided Music Generation	Sep 30, 2024	cross-modal alignmentMusic Generation	CodeCode Available	2	5
MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation	Jul 21, 2024	DiversityMusic Generation	CodeCode Available	2	5
Music Understanding LLaMA: Advancing Text-to-Music Generation with Question Answering and Captioning	Aug 22, 2023	Caption GenerationLarge Language Model	CodeCode Available	2	5
Mustango: Toward Controllable Text-to-Music Generation	Nov 14, 2023	Data AugmentationDenoising	CodeCode Available	2	5
PAM: Prompting Audio-Language Models for Audio Quality Assessment	Feb 1, 2024	Audio Quality AssessmentMusic Generation	CodeCode Available	2	5
MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models	Feb 9, 2024	Music GenerationText-to-Music Generation	CodeCode Available	1	5
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies	Aug 3, 2023	Audio GenerationBeat Tracking	CodeCode Available	1	5
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task	Nov 21, 2022	Music GenerationText-to-Music Generation	CodeCode Available	1	5
Music ControlNet: A model similar to SD ControlNetD that can accurately control music generation	Nov 7, 2023	Music GenerationRhythm	CodeCode Available	1	5
Investigating Personalization Methods in Text to Music Generation	Sep 20, 2023	Data AugmentationMusic Generation	CodeCode Available	1	5
The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation	Nov 16, 2023	Music CaptioningMusic Generation	CodeCode Available	1	5
JEN-1: Text-Guided Universal Music Generation with Omnidirectional Diffusion Models	Aug 9, 2023	Computational EfficiencyIn-Context Learning	CodeCode Available	1	5
Long-Form Text-to-Music Generation with Adaptive Prompts: A Case Study in Tabletop Role-Playing Games Soundtracks	Nov 6, 2024	FormMusic Generation	CodeCode Available	0	5
Noise2Music: Text-conditioned Music Generation with Diffusion Models	Feb 8, 2023	Music GenerationText-to-Music Generation	—Unverified	0	0
Combining audio control and style transfer using latent diffusion	Jul 31, 2024	DisentanglementMusic Generation	—Unverified	0	0
ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models	Feb 9, 2023	DiversityMusic Generation	—Unverified	0	0
JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning	Jun 18, 2024	Music GenerationText-to-Music Generation	—Unverified	0	0
The Interpretation Gap in Text-to-Music Generation Models	Jul 14, 2024	Information RetrievalMusic Generation	—Unverified	0	0
Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models	Jun 18, 2025	Music GenerationText-to-Music Generation	—Unverified	0	0
Efficient Neural Music Generation	May 25, 2023	DenoisingMusic Generation	—Unverified	0	0
MuseControlLite: Multifunctional Music Generation with Lightweight Conditioners	Jun 23, 2025	AttributeAudio inpainting	—Unverified	0	0
MusicFlow: Cascaded Flow Matching for Text Guided Music Generation	Oct 27, 2024	Music GenerationText-to-Music Generation	—Unverified	0	0
Editing Music with Melody and Text: Using ControlNet for Diffusion Transformer	Oct 7, 2024	Music GenerationMusic Style Transfer	—Unverified	0	0
Auto-Regressive vs Flow-Matching: a Comparative Study of Modeling Paradigms for Text-to-Music Generation	Jun 10, 2025	Audio inpaintingMusic Generation	—Unverified	0	0
Diffusion based Text-to-Music Generation with Global and Local Text based Conditioning	Jan 24, 2025	FADLanguage Modeling	—Unverified	0	0

Show:10 25 50

All datasets MusicCaps MusicBench

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	AudioLDM2-music	FD_openl3	354.05	—	Unverified
2	Stable Audio	FD_openl3	108.69	—	Unverified
3	Riffusion	FAD	13.4	—	Unverified
4	Mubert	FAD	9.6	—	Unverified
5	MeLoDy	FAD	5.41	—	Unverified
6	MusicGen w/ random melody (1.5B)	FAD	5	—	Unverified
7	MusicLM	FAD	4	—	Unverified
8	Noise2Music spectrogram	FAD	3.84	—	Unverified
9	MusicGen w/o melody (3.3B)	FAD	3.8	—	Unverified
10	UniAudio	FAD	3.65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Mustango (non-pretrained)	FAD	2.09	—	Unverified