Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 119 papers

Title	Date	Tasks	Status	Hype
Training Audio Captioning Models without Audio	Sep 14, 2023	Audio captioningDecoder	CodeCode Available	1
A Whisper transformer for audio captioning trained with synthetic captions and transfer learning	May 15, 2023	Audio captioningSpeech-to-Text	CodeCode Available	1
Prefix tuning for automated audio captioning	Mar 30, 2023	AudioCapsAudio captioning	CodeCode Available	1
Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates	Nov 14, 2022	AudioCapsAudio captioning	CodeCode Available	1
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention	Oct 28, 2022	AudioCapsAudio captioning	CodeCode Available	1
Audio Retrieval with WavText5K and CLAP Training	Sep 28, 2022	AudioCapsAudio captioning	CodeCode Available	1
Multimodal Knowledge Alignment with Reinforcement Learning	May 25, 2022	Audio captioningLanguage Modeling	CodeCode Available	1
Audio Retrieval with Natural Language Queries: A Benchmark Study	Dec 17, 2021	AudioCapsAudio captioning	CodeCode Available	1
Can Audio Captions Be Evaluated with Image Caption Metrics?	Oct 10, 2021	AudioCapsAudio captioning	CodeCode Available	1
An Encoder-Decoder Based Audio Captioning System With Transfer and Reinforcement Learning	Aug 5, 2021	Audio captioningDecoder	CodeCode Available	1
Audio Captioning Transformer	Jul 21, 2021	AudioCapsAudio captioning	CodeCode Available	1
CL4AC: A Contrastive Loss for Audio Captioning	Jul 21, 2021	Audio captioningDecoder	CodeCode Available	1
THE SJTU SYSTEM FOR DCASE2021 CHALLENGE TASK 6: AUDIO CAPTIONING BASED ON ENCODER PRE-TRAINING AND REINFORCEMENT LEARNING	Jul 6, 2021	Audio captioningAudio Tagging	CodeCode Available	1
MusCaps: Generating Captions for Music Audio	Apr 24, 2021	Audio captioningClassification	CodeCode Available	1
WaveTransformer: A Novel Architecture for Audio Captioning Based on Learning Temporal and Time-Frequency Information	Oct 21, 2020	Audio captioningDecoder	CodeCode Available	1
Clotho: An Audio Captioning Dataset	Oct 21, 2019	Audio captioningDiversity	CodeCode Available	1
AC/DC: LLM-based Audio Comprehension via Dialogue Continuation	Jun 12, 2025	AudioCapsAudio captioning	—Unverified	0
CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer	Jun 1, 2025	Audio captioningLanguage Modeling	—Unverified	0
Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning	May 28, 2025	AudioCapsAudio captioning	—Unverified	0
TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining	May 12, 2025	Audio captioningAudio Generation	—Unverified	0
M2D2: Exploring General-purpose Audio-Language Representations Beyond CLAP	Mar 28, 2025	Audio captioningAudio Classification	—Unverified	0
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context	Mar 19, 2025	Audio captioningAudio Question Answering	CodeCode Available	0
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities	Mar 6, 2025	Audio captioningLanguage Modeling	—Unverified	0
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders	Feb 21, 2025	Audio captioningAutomatic Speech Recognition	—Unverified	0
Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning	Feb 8, 2025	AudioCapsAudio captioning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 5Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified