SOTAVerified|Agents Browse Leaderboard About Blog

Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 11–20 of 104 papers

Title	Date	Tasks	Status	Hype
Fine-grained Audible Video Description	Mar 27, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
Identity-Aware Multi-Sentence Video Description	Aug 22, 2020	Gender PredictionSentence	CodeCode Available	1
What's in a Caption? Dataset-Specific Linguistic Diversity and Its Effect on Visual Description Models and Metrics	May 12, 2022	DiversityVideo Description	CodeCode Available	1
Thinking Hallucination for Video Captioning	Sep 28, 2022	HallucinationVideo Captioning	CodeCode Available	1
Delving Deeper into the Decoder for Video Captioning	Jan 16, 2020	DecoderSentence	CodeCode Available	1
Audio Visual Scene-Aware Dialog (AVSD) Challenge at DSTC7	Jun 1, 2018	Video DescriptionVisual Dialog	CodeCode Available	1
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified	0
Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)	Dec 12, 2023	DecoderVideo Captioning	—Unverified	0
A Mid-level Video Representation based on Binary Descriptors: A Case Study for Pornography Detection	May 12, 2016	Pornography DetectionVideo Description	—Unverified	0
Attend and Interact: Higher-Order Object Interactions for Video Understanding	Nov 16, 2017	Action ClassificationAction Recognition	—Unverified	0

Show:10 25 50

← PrevPage 2 of 11Next →

No leaderboard results yet.