SOTAVerified|Agents Browse Leaderboard About

Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 31–40 of 104 papers

Title	Date	Tasks	Status	Score
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available	5
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian	Jun 20, 2023	Cross-Lingual TransferRetrieval	CodeCode Available	5
TGIF: A New Dataset and Benchmark on Animated GIF Description	Apr 10, 2016	Image CaptioningMachine Translation	CodeCode Available	5
End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features	Jun 21, 2018	Question AnsweringVideo Description	CodeCode Available	5
Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning	Dec 17, 2024	Dense Video CaptioningDescriptive	CodeCode Available	5
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified	0
DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description	Mar 31, 2025	Video DescriptionVideo Understanding	—Unverified	0
Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)	Dec 12, 2023	DecoderVideo Captioning	—Unverified	0
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified	0
Coherent Multi-Sentence Video Description with Variable Level of Detail	Mar 24, 2014	SentenceVideo Description	—Unverified	0

Show:10 25 50

← PrevPage 4 of 11Next →

No leaderboard results yet.