Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 119 papers

Title	Date	Tasks	Status	Hype
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified	0
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment	Oct 8, 2024	Audio captioningContrastive Learning	CodeCode Available	0
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation	Sep 28, 2024	Audio captioning	CodeCode Available	0
CLAIR-A: Leveraging Large Language Models to Judge Audio Captions	Sep 19, 2024	Audio captioningLanguage Modeling	CodeCode Available	0
Enhancing Low-Resource Language and Instruction Following Capabilities of Audio Language Models	Sep 17, 2024	Audio captioningInstruction Following	—Unverified	0
Towards Diverse and Efficient Audio Captioning via Diffusion Models	Sep 14, 2024	Audio captioningDiversity	—Unverified	0
Enhancing Temporal Understanding in Audio Question Answering for Large Audio Language Models	Sep 10, 2024	Audio captioningAudio Question Answering	—Unverified	0
Expanding on EnCLAP with Auxiliary Retrieval Model for Automated Audio Captioning	Sep 2, 2024	Audio captioningReranking	—Unverified	0
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance	Sep 2, 2024	AudioCapsAudio captioning	CodeCode Available	2
Taming Data and Transformers for Audio Generation	Jun 27, 2024	Audio captioningAudio Generation	CodeCode Available	2
Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding	Jun 19, 2024	Audio captioningDecoder	CodeCode Available	1
Improving Text-To-Audio Models with Synthetic Captions	Jun 18, 2024	AudioCapsAudio captioning	CodeCode Available	5
Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models	Jun 12, 2024	Audio captioningHallucination	CodeCode Available	2
Audio Dialogues: Dialogues dataset for audio and music understanding	Apr 11, 2024	Audio captioningAudio Question Answering	—Unverified	0
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified	0
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities	Feb 2, 2024	Acoustic Scene ClassificationAudio captioning	CodeCode Available	5
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning	Jan 31, 2024	AudioCapsAudio captioning	CodeCode Available	2
Learning Audio Concepts from Counterfactual Natural Language	Jan 10, 2024	Audio captioningAudio Classification	CodeCode Available	0
AudioLog: LLMs-Powered Long Audio Logging with Hybrid Token-Semantic Contrastive Learning	Nov 21, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available	0
Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models	Nov 14, 2023	Acoustic Scene ClassificationAudio captioning	CodeCode Available	3
Zero-shot audio captioning with audio-language model guidance and audio context keywords	Nov 14, 2023	Audio captioningDescriptive	CodeCode Available	1
SALMONN: Towards Generic Hearing Abilities for Large Language Models	Oct 20, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	3
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT	Oct 7, 2023	Audio captioningAutomatic Speech Recognition	CodeCode Available	2
Weakly-supervised Automated Audio Captioning via text only training	Sep 21, 2023	AudioCapsAudio captioning	CodeCode Available	0
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning	Sep 20, 2023	Audio captioningCaption Generation	—Unverified	0

Show:10 25 50

← PrevPage 2 of 5Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified