Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 119 papers

Title	Date	Tasks	Status	Hype
Automated Audio Captioning via Fusion of Low- and High- Dimensional Features	Oct 10, 2022	AudioCapsAudio captioning	—Unverified	0
Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity	Oct 3, 2022	Audio captioningImage Captioning	—Unverified	0
Audio Retrieval with WavText5K and CLAP Training	Sep 28, 2022	AudioCapsAudio captioning	CodeCode Available	1
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Sep 20, 2022	Audio captioningRetrieval	—Unverified	0
An investigation on selecting audio pre-trained models for audio captioning	Aug 12, 2022	Audio captioning	—Unverified	0
Automated Audio Captioning and Language-Based Audio Retrieval	Jul 8, 2022	Audio captioningRetrieval	CodeCode Available	0
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Jun 13, 2022	Audio captioningRetrieval	CodeCode Available	0
Automated Audio Captioning with Epochal Difficult Captions for Curriculum Learning	Jun 4, 2022	Audio captioning	—Unverified	0
Multimodal Knowledge Alignment with Reinforcement Learning	May 25, 2022	Audio captioningLanguage Modeling	CodeCode Available	1
Automated Audio Captioning: An Overview of Recent Progress and New Challenges	May 12, 2022	Audio captioningCaption Generation	—Unverified	0
Caption Feature Space Regularization for Audio Captioning	Apr 18, 2022	Audio captioningContrastive Learning	CodeCode Available	0
Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning	Mar 29, 2022	Audio captioningContrastive Learning	—Unverified	0
Leveraging Pre-trained BERT for Audio Captioning	Mar 6, 2022	AudioCapsAudio captioning	—Unverified	0
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified	0
Automatic Audio Captioning using Attention weighted Event based Embeddings	Jan 28, 2022	Audio captioningDecoder	—Unverified	0
Local Information Assisted Attention-free Decoder for Audio Captioning	Jan 10, 2022	Audio captioningCaption Generation	CodeCode Available	0
Audio Retrieval with Natural Language Queries: A Benchmark Study	Dec 17, 2021	AudioCapsAudio captioning	CodeCode Available	1
AUTOMATED AUDIO CAPTIONING BY FINE-TUNING BART WITH AUDIOSET TAGS	Nov 15, 2021	AudioCapsAudio captioning	CodeCode Available	0
Evaluating Off-the-Shelf Machine Listening and Natural Language Models for Automated Audio Captioning	Oct 14, 2021	Audio captioningWord Embeddings	—Unverified	0
Diverse Audio Captioning via Adversarial Training	Oct 13, 2021	Audio captioningDiversity	—Unverified	0
Can Audio Captions Be Evaluated with Image Caption Metrics?	Oct 10, 2021	AudioCapsAudio captioning	CodeCode Available	1
Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization	Aug 10, 2021	Audio captioningDecoder	—Unverified	0
An Encoder-Decoder Based Audio Captioning System With Transfer and Reinforcement Learning	Aug 5, 2021	Audio captioningDecoder	CodeCode Available	1
Audio Captioning Transformer	Jul 21, 2021	AudioCapsAudio captioning	CodeCode Available	1
CL4AC: A Contrastive Loss for Audio Captioning	Jul 21, 2021	Audio captioningDecoder	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified