Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 81–90 of 119 papers

Title	Date	Tasks	Status
Automatic Audio Captioning using Attention weighted Event based Embeddings	Jan 28, 2022	Audio captioningDecoder	—Unverified
CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer	Jun 1, 2025	Audio captioningLanguage Modeling	—Unverified
Classifier-Guided Captioning Across Modalities	Jan 3, 2025	Audio captioningVideo Captioning	—Unverified
CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions	Jan 28, 2025	Audio captioningAudio Generation	—Unverified
Diverse Audio Captioning via Adversarial Training	Oct 13, 2021	Audio captioningDiversity	—Unverified
Diversity and bias in audio captioning datasets	Nov 15, 2022	Audio captioningDiversity	—Unverified
DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning	Oct 12, 2024	Audio captioningLarge Language Model	—Unverified
Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning	May 30, 2023	Audio captioningDecoder	—Unverified
Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning	Sep 24, 2020	Audio captioningData Augmentation	—Unverified
Efficient Audio Captioning Transformer with Patchout and Text Guidance	Apr 6, 2023	Audio captioningCaption Generation	—Unverified

Show:10 25 50

← PrevPage 9 of 12Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified