AudioCaps

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 64 papers

Title	Date	Tasks	Status	Hype	Score
Improving Text-To-Audio Models with Synthetic Captions	Jun 18, 2024	AudioCapsAudio captioning	CodeCode Available	5	5
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models	Jan 29, 2023	AudioCapsAudio Generation	CodeCode Available	4	5
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model	Apr 24, 2023	AudioCapsAudio Generation	CodeCode Available	3	5
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3	5
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning	Jan 31, 2024	AudioCapsAudio captioning	CodeCode Available	2	5
EnCLAP++: Analyzing the EnCLAP Framework for Optimizing Automated Audio Captioning Performance	Sep 2, 2024	AudioCapsAudio captioning	CodeCode Available	2	5
GLAP: General contrastive audio-text pretraining across domains and languages	Jun 12, 2025	AudioCapsKeyword Spotting	CodeCode Available	2	5
ETTA: Elucidating the Design Space of Text-to-Audio Models	Dec 26, 2024	AudioCapsAudio captioning	CodeCode Available	2	5
SoundCTM: Unifying Score-based and Consistency Models for Full-band Text-to-Sound Generation	May 28, 2024	AudioCapsAudio Generation	CodeCode Available	2	5
Audio Captioning Transformer	Jul 21, 2021	AudioCapsAudio captioning	CodeCode Available	1	5
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation	Sep 19, 2023	AudioCapsAudio Generation	CodeCode Available	1	5
ADIFF: Explaining audio difference using natural language	Feb 6, 2025	AudioCapsAudio captioning	CodeCode Available	1	5
Audio Retrieval with Natural Language Queries	May 5, 2021	AudioCapsAudio to Text Retrieval	CodeCode Available	1	5
Audio Retrieval with Natural Language Queries: A Benchmark Study	Dec 17, 2021	AudioCapsAudio captioning	CodeCode Available	1	5
Audio Retrieval with WavText5K and CLAP Training	Sep 28, 2022	AudioCapsAudio captioning	CodeCode Available	1	5
Bridging Language Gaps in Audio-Text Retrieval	Jun 11, 2024	AudioCapsRetrieval	CodeCode Available	1	5
Can Audio Captions Be Evaluated with Image Caption Metrics?	Oct 10, 2021	AudioCapsAudio captioning	CodeCode Available	1	5
Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates	Nov 14, 2022	AudioCapsAudio captioning	CodeCode Available	1	5
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport	Jan 16, 2025	AudioCapsAudio captioning	CodeCode Available	1	5
On Metric Learning for Audio-Text Cross-Modal Retrieval	Mar 29, 2022	AudioCapsCross-Modal Retrieval	CodeCode Available	1	5
Prefix tuning for automated audio captioning	Mar 30, 2023	AudioCapsAudio captioning	CodeCode Available	1	5
RECAP: Retrieval-Augmented Audio Captioning	Sep 18, 2023	AudioCapsAudio captioning	CodeCode Available	1	5
Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation	May 16, 2024	AudioCapsEvent Detection	CodeCode Available	1	5
Separate What You Describe: Language-Queried Audio Source Separation	Mar 28, 2022	AudioCapsAudio Source Separation	CodeCode Available	1	5
Target Sound Extraction with Variable Cross-modality Clues	Mar 15, 2023	AudioCapsTarget Sound Extraction	CodeCode Available	1	5
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention	Oct 28, 2022	AudioCapsAudio captioning	CodeCode Available	1	5
Weakly-supervised Automated Audio Captioning via text only training	Sep 21, 2023	AudioCapsAudio captioning	CodeCode Available	0	5
ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors	Feb 20, 2025	AudioCapsContrastive Learning	CodeCode Available	0	5
MINT: a Multi-modal Image and Narrative Text Dubbing Dataset for Foley Audio Content Planning and Generation	Jun 15, 2024	AudioCapsImage Generation	CodeCode Available	0	5
Accommodating Audio Modality in CLIP for Multimodal Processing	Mar 12, 2023	AudioCapsContrastive Learning	CodeCode Available	0	5
AUTOMATED AUDIO CAPTIONING BY FINE-TUNING BART WITH AUDIOSET TAGS	Nov 15, 2021	AudioCapsAudio captioning	CodeCode Available	0	5
Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval	Aug 21, 2024	AudioCapsContrastive Learning	CodeCode Available	0	5
Generation or Replication: Auscultating Audio Latent Diffusion Models	Oct 16, 2023	AudioCapsMemorization	—Unverified	0	0
Audiobox: Unified Audio Generation with Natural Language Prompts	Dec 25, 2023	AudioCapsAudio Generation	—Unverified	0	0
IMPACT: Iterative Mask-based Parallel Decoding for Text-to-Audio Generation with Diffusion Modeling	May 31, 2025	AudioCapsAudio Generation	—Unverified	0	0
Joint Speech Recognition and Audio Captioning	Feb 3, 2022	AudioCapsAudio captioning	—Unverified	0	0
Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?	Aug 29, 2023	AudioCapsAudio captioning	—Unverified	0	0
Language-based Audio Retrieval with Co-Attention Networks	Dec 30, 2024	AudioCapsLearning Semantic Representations	—Unverified	0	0
TAIL: Text-Audio Incremental Learning	Mar 6, 2025	AudioCapsIncremental Learning	—Unverified	0	0
Leveraging Pre-trained BERT for Audio Captioning	Mar 6, 2022	AudioCapsAudio captioning	—Unverified	0	0
Mitigating Audiovisual Mismatch in Visual-Guide Audio Captioning	May 28, 2025	AudioCapsAudio captioning	—Unverified	0	0
Multiscale Matching Driven by Cross-Modal Similarity Consistency for Audio-Text Retrieval	Mar 15, 2024	AudioCapsContrastive Learning	—Unverified	0	0
VoiceLDM: Text-to-Speech with Environmental Context	Sep 24, 2023	AudioCapstext-to-speech	—Unverified	0	0
Text-to-Audio Generation Synchronized with Videos	Mar 8, 2024	AudioCapsAudio Generation	—Unverified	0	0
Quality Over Quantity? LLM-Based Curation for a Data-Efficient Audio-Video Foundation Model	Mar 12, 2025	AudioCapsContrastive Learning	—Unverified	0	0
AC/DC: LLM-based Audio Comprehension via Dialogue Continuation	Jun 12, 2025	AudioCapsAudio captioning	—Unverified	0	0
Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer	Aug 20, 2023	AudioCapsAudio captioning	—Unverified	0	0
Retrieval-Augmented Text-to-Audio Generation	Sep 14, 2023	AudioCapsAudio Generation	—Unverified	0	0
Unbiased Sliced Wasserstein Kernels for High-Quality Audio Captioning	Feb 8, 2025	AudioCapsAudio captioning	—Unverified	0	0
Audio-text Retrieval in Context	Mar 25, 2022	AudioCapsRetrieval	—Unverified	0	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.