SOTAVerified|Agents Browse Leaderboard About Blog

Zero-shot Audio Captioning

Zero-shot audio captioning aims at automatically generating descriptive textual captions for audio content without any prior training for this task. Audio captioning is commonly concerned with ambient sounds, or sounds produced by a human performing an action.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–6 of 6 papers

Title	Date	Tasks	Status	Hype	Score
Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities	Feb 2, 2024	Acoustic Scene ClassificationAudio captioning	CodeCode Available	5	5
Zero-shot audio captioning with audio-language model guidance and audio context keywords	Nov 14, 2023	Audio captioningDescriptive	CodeCode Available	1	5
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment	Oct 8, 2024	Audio captioningContrastive Learning	CodeCode Available	0	5
Classifier-Guided Captioning Across Modalities	Jan 3, 2025	Audio captioningVideo Captioning	—Unverified	0	0
DRCap: Decoding CLAP Latents with Retrieval-Augmented Generation for Zero-shot Audio Captioning	Oct 12, 2024	Audio captioningLarge Language Model	—Unverified	0	0
Zero-Shot Audio Captioning via Audibility Guidance	Sep 7, 2023	Language ModelingZero-shot Audio Captioning	—Unverified	0	0

Show:10 25 50

No leaderboard results yet.