Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–119 of 119 papers

Title	Date	Tasks	Status
Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning	Feb 8, 2025	AudioCapsAudio captioning	—Unverified
Automated Audio Captioning and Language-Based Audio Retrieval	Jul 8, 2022	Audio captioningRetrieval	CodeCode Available
AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning	Nov 21, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available
Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement	Aug 23, 2023	Audio captioningDisentanglement	CodeCode Available
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Jun 13, 2022	Audio captioningRetrieval	CodeCode Available
Weakly-supervised Automated Audio Captioning via text only training	Sep 21, 2023	AudioCapsAudio captioning	CodeCode Available
Audio Caption in a Car Setting with a Sentence-Level Loss	May 31, 2019	Audio captioningDecoder	CodeCode Available
Crowdsourcing and Evaluating Text-Based Audio Retrieval Relevances	Jun 16, 2023	Audio captioningContrastive Learning	CodeCode Available
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment	Oct 8, 2024	Audio captioningContrastive Learning	CodeCode Available
Continual Learning for Automated Audio Captioning Using The Learning Without Forgetting Approach	Jul 16, 2021	Audio captioningContinual Learning	CodeCode Available
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation	Sep 28, 2024	Audio captioning	CodeCode Available
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions	Sep 19, 2024	Audio captioningLanguage Modeling	CodeCode Available
Multi-task Regularization Based on Infrequent Classes for Audio Captioning	Jul 9, 2020	Audio captioningDecoder	CodeCode Available
Caption Feature Space Regularization for Audio Captioning	Apr 18, 2022	Audio captioningContrastive Learning	CodeCode Available
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context	Mar 19, 2025	Audio captioningAudio Question Answering	CodeCode Available
AUTOMATED AUDIO CAPTIONING BY FINE-TUNING BART WITH AUDIOSET TAGS	Nov 15, 2021	AudioCapsAudio captioning	CodeCode Available
Local Information Assisted Attention-free Decoder for Audio Captioning	Jan 10, 2022	Audio captioningCaption Generation	CodeCode Available
Learning Audio Concepts from Counterfactual Natural Language	Jan 10, 2024	Audio captioningAudio Classification	CodeCode Available
Temporal Sub-sampling of Audio Feature Sequences for Automated Audio Captioning	Jul 6, 2020	Audio captioning	CodeCode Available

Show:10 25 50

← PrevPage 5 of 5Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified