Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 104 papers

Title	Date	Tasks	Status
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified
DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description	Mar 31, 2025	Video DescriptionVideo Understanding	—Unverified
MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision and Language Research in Turkish	Dec 13, 2020	Machine TranslationMultimodal Machine Translation	—Unverified
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified
A Mid-level Video Representation based on Binary Descriptors: A Case Study for Pornography Detection	May 12, 2016	Pornography DetectionVideo Description	—Unverified
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition	Jan 22, 2024	Action RecognitionVideo Description	—Unverified
End-to-End Video Captioning	Apr 4, 2019	Action RecognitionCaption Generation	—Unverified
Interpretable Video Captioning via Trajectory Structured Localization	Jun 1, 2018	DecoderImage Captioning	—Unverified
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified
Bidirectional Long-Short Term Memory for Video Description	Jun 15, 2016	Language ModelingLanguage Modelling	—Unverified
An Efficient Keyframes Selection Based Framework for Video Captioning	Dec 1, 2021	Text GenerationVideo Captioning	—Unverified
JU\_CSE\_NLP: Multi-grade Classification of Semantic Similarity between Text Pairs	Jul 1, 2012	General ClassificationSemantic Similarity	—Unverified
Generating Video Description using Sequence-to-sequence Model with Temporal Attention	Dec 1, 2016	Caption GenerationSentence	—Unverified
Better Exploiting Motion for Better Action Recognition	Jun 1, 2013	Action RecognitionImage Retrieval	—Unverified
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis	Feb 11, 2025	Action RecognitionVideo Description	—Unverified
HENRY-CORE: Domain Adaptation and Stacking for Text Similarity	Jun 1, 2013	Domain AdaptationMachine Translation	—Unverified
Hierarchical Boundary-Aware Neural Encoder for Video Captioning	Nov 28, 2016	DecoderVideo Captioning	—Unverified
HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation	Mar 31, 2025	HallucinationHuman-Object Interaction Detection	—Unverified
Bridge Video and Text with Cascade Syntactic Structure	Aug 1, 2018	AttributeObject	—Unverified
AVD2: Accident Video Diffusion for Accident Video Description	Feb 20, 2025	Autonomous DrivingScene Understanding	—Unverified
FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning	Oct 20, 2024	DiagnosticVideo Captioning	—Unverified
Prediction and Description of Near-Future Activities in Video	Aug 2, 2019	PredictionVideo Captioning	—Unverified
Incorporating Background Knowledge into Video Description Generation	Oct 1, 2018	DecoderText Generation	—Unverified
Incorporating Global Visual Features into Attention-based Neural Machine Translation.	Sep 1, 2017	DecoderMachine Translation	—Unverified
Analyzing Political Figures in Real-Time: Leveraging YouTube Metadata for Sentiment Analysis	Sep 28, 2023	Sentiment AnalysisVideo Description	—Unverified

Show:10 25 50

← PrevPage 2 of 5Next →

No leaderboard results yet.