Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–119 of 119 papers

Title	Date	Tasks	Status	Hype
Continual Learning for Automated Audio Captioning Using The Learning Without Forgetting Approach	Jul 16, 2021	Audio captioningContinual Learning	CodeCode Available	0
THE SJTU SYSTEM FOR DCASE2021 CHALLENGE TASK 6: AUDIO CAPTIONING BASED ON ENCODER PRE-TRAINING AND REINFORCEMENT LEARNING	Jul 6, 2021	Audio captioningAudio Tagging	CodeCode Available	1
THE DCASE 2021 CHALLENGE TASK 6 SYSTEM: AUTOMATED AUDIO CAPTIONING WITH WEAKLY SUPERVISED PRE-TRAING AND WORD SELECTION METHODS	Jul 6, 2021	Audio captioningCaption Generation	—Unverified	0
Audio Captioning with Composition of Acoustic and Semantic Information	May 13, 2021	AudioCapsAudio captioning	—Unverified	0
MusCaps: Generating Captions for Music Audio	Apr 24, 2021	Audio captioningClassification	CodeCode Available	1
Audio Captioning using Pre-Trained Large-Scale Language Model Guided by Audio-based Similar Caption Retrieval	Dec 14, 2020	Audio captioningLanguage Modeling	—Unverified	0
WaveTransformer: A Novel Architecture for Audio Captioning Based on Learning Temporal and Time-Frequency Information	Oct 21, 2020	Audio captioningDecoder	CodeCode Available	1
Effects of Word-frequency based Pre- and Post- Processings for Audio Captioning	Sep 24, 2020	Audio captioningData Augmentation	—Unverified	0
Multi-task Regularization Based on Infrequent Classes for Audio Captioning	Jul 9, 2020	Audio captioningDecoder	CodeCode Available	0
Temporal Sub-sampling of Audio Feature Sequences for Automated Audio Captioning	Jul 6, 2020	Audio captioning	CodeCode Available	0
The NTT DCASE2020 Challenge Task 6 system: Automated Audio Captioning with Keywords and Sentence Length Estimation	Jul 1, 2020	Audio captioningCaption Generation	—Unverified	0
A Transformer-based Audio Captioning Model with Keyword Estimation	Jul 1, 2020	Acoustic Scene ClassificationAudio captioning	—Unverified	0
Listen carefully and tell: an audio captioning system based on residual learning and gammatone audio representation	Jun 27, 2020	Audio captioningDecoder	—Unverified	0
Audio Captioning using Gated Recurrent Units	Jun 5, 2020	Audio captioning	—Unverified	0
Clotho: An Audio Captioning Dataset	Oct 21, 2019	Audio captioningDiversity	CodeCode Available	1
AudioCaps: Generating Captions for Audios in The Wild	Jun 1, 2019	AudioCapsAudio captioning	—Unverified	0
Audio Caption in a Car Setting with a Sentence-Level Loss	May 31, 2019	Audio captioningDecoder	CodeCode Available	0
An Attempt towards Interpretable Audio-Visual Video Captioning	Dec 7, 2018	Audio captioningAudio-Visual Video Captioning	—Unverified	0
Automated Audio Captioning with Recurrent Neural Networks	Jun 30, 2017	Audio captioningDecoder	—Unverified	0

Show:10 25 50

← PrevPage 3 of 3Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified