Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 119 papers

Title	Date	Tasks	Status	Hype	Score
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities	Feb 2, 2024	Acoustic Scene ClassificationAudio captioning	CodeCode Available	5	5
Improving Text-To-Audio Models with Synthetic Captions	Jun 18, 2024	AudioCapsAudio captioning	CodeCode Available	5	5
LLMs can see and hear without any training	Jan 30, 2025	Audio captioningImage Generation	CodeCode Available	3	5
SALMONN: Towards Generic Hearing Abilities for Large Language Models	Oct 20, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	3	5
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models	Nov 14, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available	3	5
Mellow: a small audio language model for reasoning	Mar 11, 2025	Audio captioningLanguage Modeling	CodeCode Available	2	5
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2	5
AudioSetCaps: An Enriched Audio-Caption Dataset using Automated Generation Pipeline with Large Audio and Language Models	Nov 28, 2024	Audio captioningAudio to Text Retrieval	CodeCode Available	2	5
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research	Mar 30, 2023	Audio captioningEvent Detection	CodeCode Available	2	5
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2	5
video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models	Jun 18, 2025	Audio captioningLarge Language Model	CodeCode Available	2	5
Pengi: An Audio Language Model for Audio Tasks	May 19, 2023	Audio captioningAudio Question Answering	CodeCode Available	2	5
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT	Oct 7, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	2	5
ETTA: Elucidating the Design Space of Text-to-Audio Models	Dec 26, 2024	AudioCapsAudio captioning	CodeCode Available	2	5
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance	Sep 2, 2024	AudioCapsAudio captioning	CodeCode Available	2	5
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning	Jan 31, 2024	AudioCapsAudio captioning	CodeCode Available	2	5
FusionAudio-1.2M: Towards Fine-grained Audio Captioning with Multimodal Contextual Fusion	Jun 1, 2025	Audio captioningCaption Generation	CodeCode Available	2	5
Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models	Jun 12, 2024	Audio captioningHallucination	CodeCode Available	2	5
Taming Data and Transformers for Audio Generation	Jun 27, 2024	Audio captioningAudio Generation	CodeCode Available	2	5
Multimodal Knowledge Alignment with Reinforcement Learning	May 25, 2022	Audio captioningLanguage Modeling	CodeCode Available	1	5
ADIFF: Explaining audio difference using natural language	Feb 6, 2025	AudioCapsAudio captioning	CodeCode Available	1	5
Audio Captioning Transformer	Jul 21, 2021	AudioCapsAudio captioning	CodeCode Available	1	5
Prefix tuning for automated audio captioning	Mar 30, 2023	AudioCapsAudio captioning	CodeCode Available	1	5
Audio Retrieval with WavText5K and CLAP Training	Sep 28, 2022	AudioCapsAudio captioning	CodeCode Available	1	5
Tell What You Hear From What You See -- Video to Audio Generation Through Text	Nov 8, 2024	Audio captioningAudio Generation	CodeCode Available	1	5
An Encoder-Decoder Based Audio Captioning System With Transfer and Reinforcement Learning	Aug 5, 2021	Audio captioningDecoder	CodeCode Available	1	5
Audio Retrieval with Natural Language Queries: A Benchmark Study	Dec 17, 2021	AudioCapsAudio captioning	CodeCode Available	1	5
RECAP: Retrieval-Augmented Audio Captioning	Sep 18, 2023	AudioCapsAudio captioning	CodeCode Available	1	5
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention	Oct 28, 2022	AudioCapsAudio captioning	CodeCode Available	1	5
WaveTransformer: A Novel Architecture for Audio Captioning Based on Learning Temporal and Time-Frequency Information	Oct 21, 2020	Audio captioningDecoder	CodeCode Available	1	5
Clotho: An Audio Captioning Dataset	Oct 21, 2019	Audio captioningDiversity	CodeCode Available	1	5
Zero-shot audio captioning with audio-language model guidance and audio context keywords	Nov 14, 2023	Audio captioningDescriptive	CodeCode Available	1	5
MusCaps: Generating Captions for Music Audio	Apr 24, 2021	Audio captioningClassification	CodeCode Available	1	5
CL4AC: A Contrastive Loss for Audio Captioning	Jul 21, 2021	Audio captioningDecoder	CodeCode Available	1	5
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport	Jan 16, 2025	AudioCapsAudio captioning	CodeCode Available	1	5
THE SJTU SYSTEM FOR DCASE2021 CHALLENGE TASK 6: AUDIO CAPTIONING BASED ON ENCODER PRE-TRAINING AND REINFORCEMENT LEARNING	Jul 6, 2021	Audio captioningAudio Tagging	CodeCode Available	1	5
Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates	Nov 14, 2022	AudioCapsAudio captioning	CodeCode Available	1	5
Can Audio Captions Be Evaluated with Image Caption Metrics?	Oct 10, 2021	AudioCapsAudio captioning	CodeCode Available	1	5
A Whisper transformer for audio captioning trained with synthetic captions and transfer learning	May 15, 2023	Audio captioningSpeech-to-Text	CodeCode Available	1	5
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding	Jun 19, 2024	Audio captioningDecoder	CodeCode Available	1	5
Training Audio Captioning Models without Audio	Sep 14, 2023	Audio captioningDecoder	CodeCode Available	1	5
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs	Oct 12, 2024	AudioCapsAudio captioning	CodeCode Available	0	5
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context	Mar 19, 2025	Audio captioningAudio Question Answering	CodeCode Available	0	5
AUTOMATED AUDIO CAPTIONING BY FINE-TUNING BART WITH AUDIOSET TAGS	Nov 15, 2021	AudioCapsAudio captioning	CodeCode Available	0	5
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment	Oct 8, 2024	Audio captioningContrastive Learning	CodeCode Available	0	5
Automated Audio Captioning and Language-Based Audio Retrieval	Jul 8, 2022	Audio captioningRetrieval	CodeCode Available	0	5
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation	Sep 28, 2024	Audio captioning	CodeCode Available	0	5
DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning	Oct 12, 2024	Audio captioningLarge Language Model	CodeCode Available	0	5
AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning	Nov 21, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available	0	5
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Jun 13, 2022	Audio captioningRetrieval	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified