SOTAVerified|Agents Browse Leaderboard About

Text to Audio Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 20 papers

Title	Date	Tasks	Status	Hype
Dissecting Temporal Understanding in Text-to-Audio Retrieval	Sep 1, 2024	AudioCapsRetrieval	—Unverified	0
Do Audio-Language Models Understand Linguistic Variations?	Oct 21, 2024	Contrastive LearningNatural Language Queries	—Unverified	0
Exploring Train and Test-Time Augmentations for Audio-Language Learning	Oct 31, 2022	Audio captioningAudio to Text Retrieval	—Unverified	0
Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval	Oct 6, 2022	Metric LearningRetrieval	—Unverified	0
The language of sound search: Examining User Queries in Audio Search Engines	Oct 10, 2024	RetrievalSurvey	—Unverified	0
Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets	Aug 8, 2023	RetrievalText to Audio Retrieval	CodeCode Available	0
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	CodeCode Available	0
Evaluation of pretrained language models on music understanding	Sep 17, 2024	Music CaptioningNegation	CodeCode Available	0
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval	Aug 21, 2024	AudioCapsContrastive Learning	CodeCode Available	0
OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation	Jul 1, 2021	Audio to Text RetrievalCross-Modal Retrieval	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 2Next →

All datasets AudioCaps Clotho Localized Narratives

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-6B	R@1	55.2	—	Unverified
2	VAST	R@1	52	—	Unverified
3	ONE-PEACE	R@1	42.5	—	Unverified
4	VALOR	R@1	40.1	—	Unverified
5	AL-MixGen + Multi-TTA	R@1	34.7	—	Unverified
6	QB-Norm+CE	R@1	23.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaSST-RoBERTa & Estimated Audio–Caption Correspondences	R@1	27.69	—	Unverified
2	InternVideo2-6B	R@1	27.2	—	Unverified
3	VAST	R@1	26.9	—	Unverified
4	PaSST–RoBERTa & GPT-augment	R@1	26.07	—	Unverified
5	ONE-PEACE	R@1	22.4	—	Unverified
6	VALOR	R@1	17.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OPT	Text-to-audio R@1	0.78	—	Unverified