Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 119 papers

Title	Date	Tasks	Status	Score
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Jun 13, 2022	Audio captioningRetrieval	CodeCode Available	5
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment	Oct 8, 2024	Audio captioningContrastive Learning	CodeCode Available	5
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation	Sep 28, 2024	Audio captioning	CodeCode Available	5
Multi-task Regularization Based on Infrequent Classes for Audio Captioning	Jul 9, 2020	Audio captioningDecoder	CodeCode Available	5
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context	Mar 19, 2025	Audio captioningAudio Question Answering	CodeCode Available	5
AUTOMATED AUDIO CAPTIONING BY FINE-TUNING BART WITH AUDIOSET TAGS	Nov 15, 2021	AudioCapsAudio captioning	CodeCode Available	5
Local Information Assisted Attention-free Decoder for Audio Captioning	Jan 10, 2022	Audio captioningCaption Generation	CodeCode Available	5
Crowdsourcing and Evaluating Text-Based Audio Retrieval Relevances	Jun 16, 2023	Audio captioningContrastive Learning	CodeCode Available	5
Temporal Sub-sampling of Audio Feature Sequences for Automated Audio Captioning	Jul 6, 2020	Audio captioning	CodeCode Available	5
Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning	Feb 8, 2025	AudioCapsAudio captioning	—Unverified	0
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Sep 20, 2022	Audio captioningRetrieval	—Unverified	0
AC/DC: LLM-based Audio Comprehension via Dialogue Continuation	Jun 12, 2025	AudioCapsAudio captioning	—Unverified	0
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning	Sep 20, 2023	Audio captioningCaption Generation	—Unverified	0
An Attempt towards Interpretable Audio-Visual Video Captioning	Dec 7, 2018	Audio captioningAudio-Visual Video Captioning	—Unverified	0
An investigation on selecting audio pre-trained models for audio captioning	Aug 12, 2022	Audio captioning	—Unverified	0
A Transformer-based Audio Captioning Model with Keyword Estimation	Jul 1, 2020	Acoustic Scene ClassificationAudio captioning	—Unverified	0
AudioCaps: Generating Captions for Audios in The Wild	Jun 1, 2019	AudioCapsAudio captioning	—Unverified	0
Audio Captioning using Gated Recurrent Units	Jun 5, 2020	Audio captioning	—Unverified	0
Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval	Dec 14, 2020	Audio captioningLanguage Modeling	—Unverified	0
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning	Oct 14, 2024	AudioCapsAudio captioning	—Unverified	0
Audio Captioning with Composition of Acoustic and Semantic Information	May 13, 2021	AudioCapsAudio captioning	—Unverified	0
Audio-CoT: Exploring Chain-of-Thought Reasoning in Large Audio Language Model	Jan 13, 2025	Audio captioningInstruction Following	—Unverified	0
Audio Dialogues: Dialogues dataset for audio and music understanding	Apr 11, 2024	Audio captioningAudio Question Answering	—Unverified	0
Audio Difference Learning for Audio Captioning	Sep 15, 2023	Audio captioning	—Unverified	0
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities	Mar 6, 2025	Audio captioningLanguage Modeling	—Unverified	0
Automated Audio Captioning: An Overview of Recent Progress and New Challenges	May 12, 2022	Audio captioningCaption Generation	—Unverified	0
Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization	Aug 10, 2021	Audio captioningDecoder	—Unverified	0
Automated Audio Captioning via Fusion of Low- and High- Dimensional Features	Oct 10, 2022	AudioCapsAudio captioning	—Unverified	0
Automated Audio Captioning with Epochal Difficult Captions for Curriculum Learning	Jun 4, 2022	Audio captioning	—Unverified	0
Automated Audio Captioning with Recurrent Neural Networks	Jun 30, 2017	Audio captioningDecoder	—Unverified	0
Automatic Audio Captioning using Attention weighted Event based Embeddings	Jan 28, 2022	Audio captioningDecoder	—Unverified	0
CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer	Jun 1, 2025	Audio captioningLanguage Modeling	—Unverified	0
Classifier-Guided Captioning Across Modalities	Jan 3, 2025	Audio captioningVideo Captioning	—Unverified	0
CosyAudio: Improving Audio Generation with Confidence Scores and Synthetic Captions	Jan 28, 2025	Audio captioningAudio Generation	—Unverified	0
Diverse Audio Captioning via Adversarial Training	Oct 13, 2021	Audio captioningDiversity	—Unverified	0
Diversity and bias in audio captioning datasets	Nov 15, 2022	Audio captioningDiversity	—Unverified	0
DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning	Oct 12, 2024	Audio captioningLarge Language Model	—Unverified	0
Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning	May 30, 2023	Audio captioningDecoder	—Unverified	0
Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning	Sep 24, 2020	Audio captioningData Augmentation	—Unverified	0
Efficient Audio Captioning Transformer with Patchout and Text Guidance	Apr 6, 2023	Audio captioningCaption Generation	—Unverified	0
EmotionCaps: Enhancing Audio Captioning Through Emotion-Augmented Data Generation	Oct 15, 2024	Audio captioningEmotion Recognition	—Unverified	0
Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models	Sep 17, 2024	Audio captioningInstruction Following	—Unverified	0
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified	0
Enhancing Speech Large Language Models with Prompt-Aware Mixture of Audio Encoders	Feb 21, 2025	Audio captioningAutomatic Speech Recognition	—Unverified	0
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models	Sep 10, 2024	Audio captioningAudio Question Answering	—Unverified	0
Evaluating Off-the-Shelf Machine Listening and Natural Language Models for Automated Audio Captioning	Oct 14, 2021	Audio captioningWord Embeddings	—Unverified	0
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning	Sep 2, 2024	Audio captioningReranking	—Unverified	0
Generating Realistic Images from In-the-wild Sounds	Sep 5, 2023	Audio captioningSentence	—Unverified	0
Impact of visual assistance for automated audio captioning	Nov 18, 2022	Audio captioningEvent Detection	—Unverified	0
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified