Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 119 papers

Title	Date	Tasks	Status
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation	Sep 6, 2023	Audio captioningData Augmentation	—Unverified
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Sep 20, 2022	Audio captioningRetrieval	—Unverified
AC/DC: LLM-based Audio Comprehension via Dialogue Continuation	Jun 12, 2025	AudioCapsAudio captioning	—Unverified
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning	Sep 20, 2023	Audio captioningCaption Generation	—Unverified
An Attempt towards Interpretable Audio-Visual Video Captioning	Dec 7, 2018	Audio captioningAudio-Visual Video Captioning	—Unverified
An investigation on selecting audio pre-trained models for audio captioning	Aug 12, 2022	Audio captioning	—Unverified
A Transformer-based Audio Captioning Model with Keyword Estimation	Jul 1, 2020	Acoustic Scene ClassificationAudio captioning	—Unverified
AudioCaps: Generating Captions for Audios in The Wild	Jun 1, 2019	AudioCapsAudio captioning	—Unverified
Audio Captioning using Gated Recurrent Units	Jun 5, 2020	Audio captioning	—Unverified
Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval	Dec 14, 2020	Audio captioningLanguage Modeling	—Unverified
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning	Oct 14, 2024	AudioCapsAudio captioning	—Unverified
Audio Captioning with Composition of Acoustic and Semantic Information	May 13, 2021	AudioCapsAudio captioning	—Unverified
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model	Jan 13, 2025	Audio captioningInstruction Following	—Unverified
Audio Dialogues: Dialogues dataset for audio and music understanding	Apr 11, 2024	Audio captioningAudio Question Answering	—Unverified
Audio Difference Learning for Audio Captioning	Sep 15, 2023	Audio captioning	—Unverified
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities	Mar 6, 2025	Audio captioningLanguage Modeling	—Unverified
Automated Audio Captioning: An Overview of Recent Progress and New Challenges	May 12, 2022	Audio captioningCaption Generation	—Unverified
Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization	Aug 10, 2021	Audio captioningDecoder	—Unverified
Automated Audio Captioning via Fusion of Low- and High- Dimensional Features	Oct 10, 2022	AudioCapsAudio captioning	—Unverified
Automated Audio Captioning with Epochal Difficult Captions for Curriculum Learning	Jun 4, 2022	Audio captioning	—Unverified
Automated Audio Captioning with Recurrent Neural Networks	Jun 30, 2017	Audio captioningDecoder	—Unverified
Automatic Audio Captioning using Attention weighted Event based Embeddings	Jan 28, 2022	Audio captioningDecoder	—Unverified
CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer	Jun 1, 2025	Audio captioningLanguage Modeling	—Unverified
Classifier-Guided Captioning Across Modalities	Jan 3, 2025	Audio captioningVideo Captioning	—Unverified
CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions	Jan 28, 2025	Audio captioningAudio Generation	—Unverified
Diverse Audio Captioning via Adversarial Training	Oct 13, 2021	Audio captioningDiversity	—Unverified
Diversity and bias in audio captioning datasets	Nov 15, 2022	Audio captioningDiversity	—Unverified
DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning	Oct 12, 2024	Audio captioningLarge Language Model	—Unverified
Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning	May 30, 2023	Audio captioningDecoder	—Unverified
Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning	Sep 24, 2020	Audio captioningData Augmentation	—Unverified
Efficient Audio Captioning Transformer with Patchout and Text Guidance	Apr 6, 2023	Audio captioningCaption Generation	—Unverified
EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation	Oct 15, 2024	Audio captioningEmotion Recognition	—Unverified
Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models	Sep 17, 2024	Audio captioningInstruction Following	—Unverified
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders	Feb 21, 2025	Audio captioningAutomatic Speech Recognition	—Unverified
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models	Sep 10, 2024	Audio captioningAudio Question Answering	—Unverified
Evaluating Off-the-Shelf Machine Listening and Natural Language Models for Automated Audio Captioning	Oct 14, 2021	Audio captioningWord Embeddings	—Unverified
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning	Sep 2, 2024	Audio captioningReranking	—Unverified
Generating Realistic Images from In-the-wild Sounds	Sep 5, 2023	Audio captioningSentence	—Unverified
Impact of visual assistance for automated audio captioning	Nov 18, 2022	Audio captioningEvent Detection	—Unverified
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified
Improving Audio Caption Fluency with Automatic Error Correction	Jun 16, 2023	Audio captioningSentence	—Unverified
Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer	Aug 20, 2023	AudioCapsAudio captioning	—Unverified
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs	Oct 12, 2024	AudioCapsAudio captioning	—Unverified
TACOS: Temporally-aligned Audio CaptiOnS for Language-Audio Pretraining	May 12, 2025	Audio captioningAudio Generation	—Unverified
Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity	Oct 3, 2022	Audio captioningImage Captioning	—Unverified
THE DCASE 2021 CHALLENGE TASK 6 SYSTEM: AUTOMATED AUDIO CAPTIONING WITH WEAKLY SUPERVISED PRE-TRAING AND WORD SELECTION METHODS	Jul 6, 2021	Audio captioningCaption Generation	—Unverified
The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation	Jul 1, 2020	Audio captioningCaption Generation	—Unverified
Towards Diverse and Efficient Audio Captioning via Diffusion Models	Sep 14, 2024	Audio captioningDiversity	—Unverified
Towards Generating Diverse Audio Captions via Adversarial Training	Dec 5, 2022	Audio captioningDiversity	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified