SOTAVerified|Agents Browse Leaderboard About

Text to Audio Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 20 papers

Title	Date	Tasks	Status	Hype
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	CodeCode Available	0
Do Audio-Language Models Understand Linguistic Variations?	Oct 21, 2024	Contrastive LearningNatural Language Queries	—Unverified	0
The language of sound search: Examining User Queries in Audio Search Engines	Oct 10, 2024	RetrievalSurvey	—Unverified	0
Evaluation of pretrained language models on music understanding	Sep 17, 2024	Music CaptioningNegation	CodeCode Available	0
Dissecting Temporal Understanding in Text-to-Audio Retrieval	Sep 1, 2024	AudioCapsRetrieval	—Unverified	0
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval	Aug 21, 2024	AudioCapsContrastive Learning	CodeCode Available	0
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio	Dec 14, 2023	ArticlesCross-Modal Retrieval	—Unverified	0
The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation	Nov 16, 2023	Music CaptioningMusic Generation	CodeCode Available	1
Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets	Aug 8, 2023	RetrievalText to Audio Retrieval	CodeCode Available	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets AudioCaps Clotho Localized Narratives

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-6B	R@1	55.2	—	Unverified
2	VAST	R@1	52	—	Unverified
3	ONE-PEACE	R@1	42.5	—	Unverified
4	VALOR	R@1	40.1	—	Unverified
5	AL-MixGen + Multi-TTA	R@1	34.7	—	Unverified
6	QB-Norm+CE	R@1	23.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaSST-RoBERTa & Estimated Audio–Caption Correspondences	R@1	27.69	—	Unverified
2	InternVideo2-6B	R@1	27.2	—	Unverified
3	VAST	R@1	26.9	—	Unverified
4	PaSST–RoBERTa & GPT-augment	R@1	26.07	—	Unverified
5	ONE-PEACE	R@1	22.4	—	Unverified
6	VALOR	R@1	17.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OPT	Text-to-audio R@1	0.78	—	Unverified