Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 119 papers

Title	Date	Tasks	Status	Hype
RECAP: Retrieval-Augmented Audio Captioning	Sep 18, 2023	AudioCapsAudio captioning	CodeCode Available	1
Audio Difference Learning for Audio Captioning	Sep 15, 2023	Audio captioning	—Unverified	0
Training Audio Captioning Models without Audio	Sep 14, 2023	Audio captioningDecoder	CodeCode Available	1
Parameter Efficient Audio Captioning With Faithful Guidance Using Audio-text Shared Latent Representation	Sep 6, 2023	Audio captioningData Augmentation	—Unverified	0
Generating Realistic Images from In-the-wild Sounds	Sep 5, 2023	Audio captioningSentence	—Unverified	0
Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?	Aug 29, 2023	AudioCapsAudio captioning	—Unverified	0
Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement	Aug 23, 2023	Audio captioningDisentanglement	CodeCode Available	0
Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer	Aug 20, 2023	AudioCapsAudio captioning	—Unverified	0
Improving Audio Caption Fluency with Automatic Error Correction	Jun 16, 2023	Audio captioningSentence	—Unverified	0
Crowdsourcing and Evaluating Text-Based Audio Retrieval Relevances	Jun 16, 2023	Audio captioningContrastive Learning	CodeCode Available	0
Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning	May 30, 2023	Audio captioningDecoder	—Unverified	0
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2
Pengi: An Audio Language Model for Audio Tasks	May 19, 2023	Audio captioningAudio Question Answering	CodeCode Available	2
A Whisper transformer for audio captioning trained with synthetic captions and transfer learning	May 15, 2023	Audio captioningSpeech-to-Text	CodeCode Available	1
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2
Efficient Audio Captioning Transformer with Patchout and Text Guidance	Apr 6, 2023	Audio captioningCaption Generation	—Unverified	0
Prefix tuning for automated audio captioning	Mar 30, 2023	AudioCapsAudio captioning	CodeCode Available	1
WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research	Mar 30, 2023	Audio captioningEvent Detection	CodeCode Available	2
Towards Generating Diverse Audio Captions via Adversarial Training	Dec 5, 2022	Audio captioningDiversity	—Unverified	0
Impact of visual assistance for automated audio captioning	Nov 18, 2022	Audio captioningEvent Detection	—Unverified	0
Diversity and bias in audio captioning datasets	Nov 15, 2022	Audio captioningDiversity	—Unverified	0
Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates	Nov 14, 2022	AudioCapsAudio captioning	CodeCode Available	1
Investigations in Audio Captioning: Addressing Vocabulary Imbalance and Evaluating Suitability of Language-Centric Performance Metrics	Nov 12, 2022	Audio captioningImage Captioning	—Unverified	0
Exploring Train and Test-Time Augmentations for Audio-Language Learning	Oct 31, 2022	Audio captioningAudio to Text Retrieval	—Unverified	0
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention	Oct 28, 2022	AudioCapsAudio captioning	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified