SOTAVerified|Agents Browse Leaderboard About

Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–60 of 104 papers

Title	Date	Tasks	Status
PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation	Oct 30, 2024	Anomaly DetectionDescriptive	—Unverified
Relational Graph Learning for Grounded Video Description Generation	Dec 2, 2021	Graph LearningHallucination	—Unverified
Saarland: Vector-based models of semantic textual similarity	Jul 1, 2012	Semantic Textual SimilarityVideo Description	—Unverified
Semantic Neighborhoods as Hypergraphs	Aug 1, 2013	Machine TranslationParaphrase Generation	—Unverified
SHEF-Multimodal: Grounding Machine Translation on Images	Aug 1, 2016	Machine TranslationMultimodal Machine Translation	—Unverified
SRIUBC: Simple Similarity Features for Semantic Textual Similarity	Jul 1, 2012	Natural Language InferenceParaphrase Identification	—Unverified
Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text Translation	Dec 28, 2021	Image CaptioningMachine Translation	—Unverified
Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description	Jul 1, 2017	Video CaptioningVideo Description	—Unverified
Technical Report: Competition Solution For Modelscope-Sora	Sep 24, 2024	Text-to-Video GenerationVideo Description	—Unverified
The Role of the Input in Natural Language Video Description	Feb 9, 2021	Data AugmentationVideo Description	—Unverified

Show:10 25 50

← PrevPage 6 of 11Next →

No leaderboard results yet.