SOTAVerified|Agents Browse Leaderboard About Blog

AudioCaps

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 64 papers

Title	Date	Tasks	Status	Hype
Revisiting Deep Audio-Text Retrieval Through the Lens of Transportation	May 16, 2024	AudioCapsEvent Detection	CodeCode Available	1
Multiscale Matching Driven by Cross-Modal Similarity Consistency for Audio-Text Retrieval	Mar 15, 2024	AudioCapsContrastive Learning	—Unverified	0
Text-to-Audio Generation Synchronized with Videos	Mar 8, 2024	AudioCapsAudio Generation	—Unverified	0
EnCLAP: Combining Neural Audio Codec and Audio-Text Joint Embedding for Automated Audio Captioning	Jan 31, 2024	AudioCapsAudio captioning	CodeCode Available	2
CoAVT: A Cognition-Inspired Unified Audio-Visual-Text Pre-Training Model for Multimodal Processing	Jan 22, 2024	AudioCapsAudio-Visual Synchronization	—Unverified	0
Audiobox: Unified Audio Generation with Natural Language Prompts	Dec 25, 2023	AudioCapsAudio Generation	—Unverified	0
Audio-Visual LLM for Video Understanding	Dec 11, 2023	AudioCapsLanguage Modeling	—Unverified	0
FLAP: Fast Language-Audio Pre-training	Nov 2, 2023	AudioCapsContrastive Learning	—Unverified	0
Generation or Replication: Auscultating Audio Latent Diffusion Models	Oct 16, 2023	AudioCapsMemorization	—Unverified	0
VoiceLDM: Text-to-Speech with Environmental Context	Sep 24, 2023	AudioCapstext-to-speech	—Unverified	0
Weakly-supervised Automated Audio Captioning via text only training	Sep 21, 2023	AudioCapsAudio captioning	CodeCode Available	0
ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation	Sep 19, 2023	AudioCapsAudio Generation	CodeCode Available	1
RECAP: Retrieval-Augmented Audio Captioning	Sep 18, 2023	AudioCapsAudio captioning	CodeCode Available	1
Retrieval-Augmented Text-to-Audio Generation	Sep 14, 2023	AudioCapsAudio Generation	—Unverified	0
Killing two birds with one stone: Can an audio captioning system also be used for audio-text retrieval?	Aug 29, 2023	AudioCapsAudio captioning	—Unverified	0
Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer	Aug 20, 2023	AudioCapsAudio captioning	—Unverified	0
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment	May 22, 2023	AudioCapsAudio Generation	—Unverified	0
ONE-PEACE: Exploring One General Representation Model Toward Unlimited Modalities	May 18, 2023	1 Image, 2*2 StitchiAction Classification	CodeCode Available	3
Text-to-Audio Generation using Instruction-Tuned LLM and Latent Diffusion Model	Apr 24, 2023	AudioCapsAudio Generation	CodeCode Available	3
Prefix tuning for automated audio captioning	Mar 30, 2023	AudioCapsAudio captioning	CodeCode Available	1
Target Sound Extraction with Variable Cross-modality Clues	Mar 15, 2023	AudioCapsTarget Sound Extraction	CodeCode Available	1
Accommodating Audio Modality in CLIP for Multimodal Processing	Mar 12, 2023	AudioCapsContrastive Learning	CodeCode Available	0
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models	Jan 29, 2023	AudioCapsAudio Generation	CodeCode Available	4
Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates	Nov 14, 2022	AudioCapsAudio captioning	CodeCode Available	1
Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention	Oct 28, 2022	AudioCapsAudio captioning	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.