Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–119 of 119 papers

Title	Date	Tasks	Status
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified
Improving Audio Caption Fluency with Automatic Error Correction	Jun 16, 2023	Audio captioningSentence	—Unverified
Exploring Train and Test-Time Augmentations for Audio-Language Learning	Oct 31, 2022	Audio captioningAudio to Text Retrieval	—Unverified
Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning	Mar 29, 2022	Audio captioningContrastive Learning	—Unverified
Investigations in Audio Captioning: Addressing Vocabulary Imbalance and Evaluating Suitability of Language-Centric Performance Metrics	Nov 12, 2022	Audio captioningImage Captioning	—Unverified
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified
Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?	Aug 29, 2023	AudioCapsAudio captioning	—Unverified
Leveraging Pre-trained BERT for Audio Captioning	Mar 6, 2022	AudioCapsAudio captioning	—Unverified
Listen carefully and tell: an audio captioning system based on residual learning and gammatone audio representation	Jun 27, 2020	Audio captioningDecoder	—Unverified
Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning	May 28, 2025	AudioCapsAudio captioning	—Unverified
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation	Sep 6, 2023	Audio captioningData Augmentation	—Unverified
Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer	Aug 20, 2023	AudioCapsAudio captioning	—Unverified
TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining	May 12, 2025	Audio captioningAudio Generation	—Unverified
Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity	Oct 3, 2022	Audio captioningImage Captioning	—Unverified
THE DCASE 2021 CHALLENGE TASK 6 SYSTEM: AUTOMATED AUDIO CAPTIONING WITH WEAKLY SUPERVISED PRE-TRAING AND WORD SELECTION METHODS	Jul 6, 2021	Audio captioningCaption Generation	—Unverified
The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation	Jul 1, 2020	Audio captioningCaption Generation	—Unverified
Towards Diverse and Efficient Audio Captioning via Diffusion Models	Sep 14, 2024	Audio captioningDiversity	—Unverified
Towards Generating Diverse Audio Captions via Adversarial Training	Dec 5, 2022	Audio captioningDiversity	—Unverified
Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning	Feb 8, 2025	AudioCapsAudio captioning	—Unverified

Show:10 25 50

← PrevPage 5 of 5Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified