Audio-Visual Captioning

Papers

Showing 1–4 of 4 papers

Title	Date	Tasks	Status	Hype
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2
AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning	Jul 10, 2024	Audio-Visual CaptioningImage Captioning	CodeCode Available	1
LAVCap: LLM-based Audio-Visual Captioning using Optimal Transport	Jan 16, 2025	AudioCapsAudio captioning	CodeCode Available	1

Show:10 25 50

No leaderboard results yet.