Text to Audio Retrieval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–20 of 20 papers

Title	Date	Tasks	Status	Hype
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	CodeCode Available	0
Do Audio-Language Models Understand Linguistic Variations?	Oct 21, 2024	Contrastive LearningNatural Language Queries	—Unverified	0
The language of sound search: Examining User Queries in Audio Search Engines	Oct 10, 2024	RetrievalSurvey	—Unverified	0
Evaluation of pretrained language models on music understanding	Sep 17, 2024	Music CaptioningNegation	CodeCode Available	0
Dissecting Temporal Understanding in Text-to-Audio Retrieval	Sep 1, 2024	AudioCapsRetrieval	—Unverified	0
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval	Aug 21, 2024	AudioCapsContrastive Learning	CodeCode Available	0
InternVideo2: Scaling Foundation Models for Multimodal Video Understanding	Mar 22, 2024	Action ClassificationAction Recognition	CodeCode Available	7
WikiMuTe: A web-sourced dataset of semantic descriptions for music audio	Dec 14, 2023	ArticlesCross-Modal Retrieval	—Unverified	0
The Song Describer Dataset: a Corpus of Audio Captions for Music-and-Language Evaluation	Nov 16, 2023	Music CaptioningMusic Generation	CodeCode Available	1
Advancing Natural-Language Based Audio Retrieval with PaSST and Large Audio-Caption Data Sets	Aug 8, 2023	RetrievalText to Audio Retrieval	CodeCode Available	0
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2
Data leakage in cross-modal retrieval training: A case study	Feb 23, 2023	Cross-Modal RetrievalRetrieval	—Unverified	0
Exploring Train and Test-Time Augmentations for Audio-Language Learning	Oct 31, 2022	Audio captioningAudio to Text Retrieval	—Unverified	0
Matching Text and Audio Embeddings: Exploring Transfer-learning Strategies for Language-based Audio Retrieval	Oct 6, 2022	Metric LearningRetrieval	—Unverified	0
Cross Modal Retrieval with Querybank Normalisation	Dec 23, 2021	Cross-Modal RetrievalMetric Learning	CodeCode Available	1
Audio Retrieval with Natural Language Queries: A Benchmark Study	Dec 17, 2021	AudioCapsAudio captioning	CodeCode Available	1
OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation	Jul 1, 2021	Audio to Text RetrievalCross-Modal Retrieval	CodeCode Available	0
Audio Retrieval with Natural Language Queries	May 5, 2021	AudioCapsAudio to Text Retrieval	CodeCode Available	1

Show:10 25 50

All datasets AudioCaps Clotho Localized Narratives

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	InternVideo2-6B	R@1	55.2	—	Unverified
2	VAST	R@1	52	—	Unverified
3	ONE-PEACE	R@1	42.5	—	Unverified
4	VALOR	R@1	40.1	—	Unverified
5	AL-MixGen + Multi-TTA	R@1	34.7	—	Unverified
6	QB-Norm+CE	R@1	23.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaSST-RoBERTa & Estimated Audio–Caption Correspondences	R@1	27.69	—	Unverified
2	InternVideo2-6B	R@1	27.2	—	Unverified
3	VAST	R@1	26.9	—	Unverified
4	PaSST–RoBERTa & GPT-augment	R@1	26.07	—	Unverified
5	ONE-PEACE	R@1	22.4	—	Unverified
6	VALOR	R@1	17.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	OPT	Text-to-audio R@1	0.78	—	Unverified