SOTAVerified|Agents Browse Leaderboard About Blog

AudioCaps

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 64 papers

Title	Date	Tasks	Status	Hype
GLAP: General contrastive audio-text pretraining across domains and languages	Jun 12, 2025	AudioCapsKeyword Spotting	CodeCode Available	2
AC/DC: LLM-based Audio Comprehension via Dialogue Continuation	Jun 12, 2025	AudioCapsAudio captioning	—Unverified	0
IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling	May 31, 2025	AudioCapsAudio Generation	—Unverified	0
Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning	May 28, 2025	AudioCapsAudio captioning	—Unverified	0
AudioTurbo: Fast Text-to-Audio Generation with Rectified Diffusion	May 28, 2025	AudioCapsAudio Generation	—Unverified	0
DiffGAP: A Lightweight Diffusion Module in Contrastive Space for Bridging Cross-Model Gap	Mar 15, 2025	AudioCapsAudio Generation	—Unverified	0
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model	Mar 12, 2025	AudioCapsContrastive Learning	—Unverified	0
TAIL: Text-Audio Incremental Learning	Mar 6, 2025	AudioCapsIncremental Learning	—Unverified	0
ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors	Feb 20, 2025	AudioCapsContrastive Learning	CodeCode Available	0
Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning	Feb 8, 2025	AudioCapsAudio captioning	—Unverified	0
ADIFF: Explaining audio difference using natural language	Feb 6, 2025	AudioCapsAudio captioning	CodeCode Available	1
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport	Jan 16, 2025	AudioCapsAudio captioning	CodeCode Available	1
Language-based Audio Retrieval with Co-Attention Networks	Dec 30, 2024	AudioCapsLearning Semantic Representations	—Unverified	0
ETTA: Elucidating the Design Space of Text-to-Audio Models	Dec 26, 2024	AudioCapsAudio captioning	CodeCode Available	2
Enhancing Retrieval-Augmented Audio Captioning with Generation-Assisted Multimodal Querying and Progressive Learning	Oct 14, 2024	AudioCapsAudio captioning	—Unverified	0
SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs	Oct 12, 2024	AudioCapsAudio captioning	—Unverified	0
DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval	Sep 16, 2024	AudioCapsRetrieval	—Unverified	0
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance	Sep 2, 2024	AudioCapsAudio captioning	CodeCode Available	2
Dissecting Temporal Understanding in Text-to-Audio Retrieval	Sep 1, 2024	AudioCapsRetrieval	—Unverified	0
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval	Aug 21, 2024	AudioCapsContrastive Learning	CodeCode Available	0
Fusing Audio and Metadata Embeddings Improves Language-based Audio Retrieval	Jun 22, 2024	AudioCapsRetrieval	—Unverified	0
Improving Text-To-Audio Models with Synthetic Captions	Jun 18, 2024	AudioCapsAudio captioning	CodeCode Available	5
MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation	Jun 15, 2024	AudioCapsImage Generation	CodeCode Available	0
Bridging Language Gaps in Audio-Text Retrieval	Jun 11, 2024	AudioCapsRetrieval	CodeCode Available	1
SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation	May 28, 2024	AudioCapsAudio Generation	CodeCode Available	2

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.