Audio captioning

Audio Captioning is the task of describing audio using text. The general approach is to use an audio encoder to encode the audio (example: PANN, CAV-MAE), and to use a decoder (example: transformer) to generate the text. To judge the quality of audio captions, though machine translation metrics (BLEU, METEOR, ROUGE) and image captioning metrics (SPICE, CIDER) are used, they are not very well-suited. Attempts have been made to use pretrained language model based metrics such as Sentence-BERT.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 119 papers

Title	Date	Tasks	Status
Audio Difference Captioning Utilizing Similarity-Discrepancy Disentanglement	Aug 23, 2023	Audio captioningDisentanglement	CodeCode Available
Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer	Aug 20, 2023	AudioCapsAudio captioning	—Unverified
Crowdsourcing and Evaluating Text-Based Audio Retrieval Relevances	Jun 16, 2023	Audio captioningContrastive Learning	CodeCode Available
Improving Audio Caption Fluency with Automatic Error Correction	Jun 16, 2023	Audio captioningSentence	—Unverified
Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning	May 30, 2023	Audio captioningDecoder	—Unverified
Efficient Audio Captioning Transformer with Patchout and Text Guidance	Apr 6, 2023	Audio captioningCaption Generation	—Unverified
Towards Generating Diverse Audio Captions via Adversarial Training	Dec 5, 2022	Audio captioningDiversity	—Unverified
Impact of visual assistance for automated audio captioning	Nov 18, 2022	Audio captioningEvent Detection	—Unverified
Diversity and bias in audio captioning datasets	Nov 15, 2022	Audio captioningDiversity	—Unverified
Investigations in Audio Captioning: Addressing Vocabulary Imbalance and Evaluating Suitability of Language-Centric Performance Metrics	Nov 12, 2022	Audio captioningImage Captioning	—Unverified
Exploring Train and Test-Time Augmentations for Audio-Language Learning	Oct 31, 2022	Audio captioningAudio to Text Retrieval	—Unverified
Automated Audio Captioning via Fusion of Low- and High- Dimensional Features	Oct 10, 2022	AudioCapsAudio captioning	—Unverified
Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity	Oct 3, 2022	Audio captioningImage Captioning	—Unverified
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Sep 20, 2022	Audio captioningRetrieval	—Unverified
An investigation on selecting audio pre-trained models for audio captioning	Aug 12, 2022	Audio captioning	—Unverified
Automated Audio Captioning and Language-Based Audio Retrieval	Jul 8, 2022	Audio captioningRetrieval	CodeCode Available
Language-based Audio Retrieval Task in DCASE 2022 Challenge	Jun 13, 2022	Audio captioningRetrieval	CodeCode Available
Automated Audio Captioning with Epochal Difficult Captions for Curriculum Learning	Jun 4, 2022	Audio captioning	—Unverified
Automated Audio Captioning: An Overview of Recent Progress and New Challenges	May 12, 2022	Audio captioningCaption Generation	—Unverified
Caption Feature Space Regularization for Audio Captioning	Apr 18, 2022	Audio captioningContrastive Learning	CodeCode Available
Interactive Audio-text Representation for Automated Audio Captioning with Contrastive Learning	Mar 29, 2022	Audio captioningContrastive Learning	—Unverified
Leveraging Pre-trained BERT for Audio Captioning	Mar 6, 2022	AudioCapsAudio captioning	—Unverified
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified
Automatic Audio Captioning using Attention weighted Event based Embeddings	Jan 28, 2022	Audio captioningDecoder	—Unverified
Local Information Assisted Attention-free Decoder for Audio Captioning	Jan 10, 2022	Audio captioningCaption Generation	CodeCode Available

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets AudioCaps Clotho

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.78	—	Unverified
2	VALOR	CIDEr	0.74	—	Unverified
3	MQ-Cap	SPIDEr	0.52	—	Unverified
4	SLAM-AAC	SPIDEr	0.52	—	Unverified
5	LAVCap	SPIDEr	0.52	—	Unverified
6	EnCLAP++-large	SPIDEr	0.51	—	Unverified
7	AutoCap	SPIDEr	0.51	—	Unverified
8	LOAE	SPIDEr	0.51	—	Unverified
9	EnCLAP++-base	SPIDEr	0.5	—	Unverified
10	EnCLAP-large	SPIDEr	0.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	CIDEr	0.52	—	Unverified
2	VALOR	CIDEr	0.42	—	Unverified
3	SLAM-AAC	SPIDEr	0.33	—	Unverified
4	LOAE	SPIDEr	0.33	—	Unverified
5	MQ-Cap	SPIDEr	0.32	—	Unverified
6	Ensemble	SPIDEr	0.32	—	Unverified
7	Audio Flamingo (Pengi trainset)	SPIDEr	0.31	—	Unverified
8	Ensemble-RL	SPIDEr	0.3	—	Unverified
9	Qwen-Audio	SPIDEr	0.29	—	Unverified
10	Ensemble	SPIDEr	0.21	—	Unverified