SOTAVerified|Agents Browse Leaderboard About

Text to Audio Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 20 papers

Title	Date	Tasks	Status	Hype
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2
The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation	Nov 16, 2023	Music CaptioningMusic Generation	CodeCode Available	1
Cross Modal Retrieval with Querybank Normalisation	Dec 23, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Audio Retrieval with Natural Language Queries: A Benchmark Study	Dec 17, 2021	AudioCapsAudio captioning	CodeCode Available	1
Audio Retrieval with Natural Language Queries	May 5, 2021	AudioCapsAudio to Text Retrieval	CodeCode Available	1
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	CodeCode Available	0
Do Audio-Language Models Understand Linguistic Variations?	Oct 21, 2024	Contrastive LearningNatural Language Queries	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

All datasets AudioCaps Clotho Localized Narratives

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-6B	R@1	55.2	—	Unverified
2	VAST	R@1	52	—	Unverified
3	ONE-PEACE	R@1	42.5	—	Unverified
4	VALOR	R@1	40.1	—	Unverified
5	AL-MixGen + Multi-TTA	R@1	34.7	—	Unverified
6	QB-Norm+CE	R@1	23.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaSST-RoBERTa & Estimated Audio–Caption Correspondences	R@1	27.69	—	Unverified
2	InternVideo2-6B	R@1	27.2	—	Unverified
3	VAST	R@1	26.9	—	Unverified
4	PaSST–RoBERTa & GPT-augment	R@1	26.07	—	Unverified
5	ONE-PEACE	R@1	22.4	—	Unverified
6	VALOR	R@1	17.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OPT	Text-to-audio R@1	0.78	—	Unverified