SOTAVerified|Agents Browse Leaderboard About

Text to Audio Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 20 papers

Title	Date	Tasks	Status	Hype	Score
Evaluation of pretrained language models on music understanding	Sep 17, 2024	Music CaptioningNegation	CodeCode Available	0	5
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	CodeCode Available	0	5
OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation	Jul 1, 2021	Audio to Text RetrievalCross-Modal Retrieval	CodeCode Available	0	5
Exploring Train and Test-Time Augmentations for Audio-Language Learning	Oct 31, 2022	Audio captioningAudio to Text Retrieval	—Unverified	0	0
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio	Dec 14, 2023	ArticlesCross-Modal Retrieval	—Unverified	0	0
The language of sound search: Examining User Queries in Audio Search Engines	Oct 10, 2024	RetrievalSurvey	—Unverified	0	0
Do Audio-Language Models Understand Linguistic Variations?	Oct 21, 2024	Contrastive LearningNatural Language Queries	—Unverified	0	0
Dissecting Temporal Understanding in Text-to-Audio Retrieval	Sep 1, 2024	AudioCapsRetrieval	—Unverified	0	0
Data leakage in cross-modal retrieval training: A case study	Feb 23, 2023	Cross-Modal RetrievalRetrieval	—Unverified	0	0
Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval	Oct 6, 2022	Metric LearningRetrieval	—Unverified	0	0

Show:10 25 50

← PrevPage 2 of 2Next →

All datasets AudioCaps Clotho Localized Narratives

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-6B	R@1	55.2	—	Unverified
2	VAST	R@1	52	—	Unverified
3	ONE-PEACE	R@1	42.5	—	Unverified
4	VALOR	R@1	40.1	—	Unverified
5	AL-MixGen + Multi-TTA	R@1	34.7	—	Unverified
6	QB-Norm+CE	R@1	23.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaSST-RoBERTa & Estimated Audio–Caption Correspondences	R@1	27.69	—	Unverified
2	InternVideo2-6B	R@1	27.2	—	Unverified
3	VAST	R@1	26.9	—	Unverified
4	PaSST–RoBERTa & GPT-augment	R@1	26.07	—	Unverified
5	ONE-PEACE	R@1	22.4	—	Unverified
6	VALOR	R@1	17.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OPT	Text-to-audio R@1	0.78	—	Unverified