Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 104 papers

Title	Date	Tasks	Status
Probabilistic Soft Logic for Semantic Textual Similarity	Jun 1, 2014	Semantic Textual SimilarityVideo Description	—Unverified
PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation	Oct 30, 2024	Anomaly DetectionDescriptive	—Unverified
Relational Graph Learning for Grounded Video Description Generation	Dec 2, 2021	Graph LearningHallucination	—Unverified
Saarland: Vector-based models of semantic textual similarity	Jul 1, 2012	Semantic Textual SimilarityVideo Description	—Unverified
Semantic Neighborhoods as Hypergraphs	Aug 1, 2013	Machine TranslationParaphrase Generation	—Unverified
SHEF-Multimodal: Grounding Machine Translation on Images	Aug 1, 2016	Machine TranslationMultimodal Machine Translation	—Unverified
SRIUBC: Simple Similarity Features for Semantic Textual Similarity	Jul 1, 2012	Natural Language InferenceParaphrase Identification	—Unverified
Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text Translation	Dec 28, 2021	Image CaptioningMachine Translation	—Unverified
Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description	Jul 1, 2017	Video CaptioningVideo Description	—Unverified
Technical Report: Competition Solution For Modelscope-Sora	Sep 24, 2024	Text-to-Video GenerationVideo Description	—Unverified
The Role of the Input in Natural Language Video Description	Feb 9, 2021	Data AugmentationVideo Description	—Unverified
Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time	Jan 14, 2025	Object RecognitionText Generation	—Unverified
Unbox the Blackbox: Predict and Interpret YouTube Viewership Using Deep Learning	Dec 21, 2020	MisinformationPrediction	—Unverified
Vectors of Locally Aggregated Centers for Compact Video Representation	Sep 13, 2015	ClusteringVideo Description	—Unverified
VideoA11y: Method and Dataset for Accessible Video Description	Feb 27, 2025	Video Description	—Unverified
VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models	Oct 1, 2024	Hallucinationtext similarity	—Unverified
Video Description: A Survey of Methods, Datasets and Evaluation Metrics	Jun 1, 2018	DiversityLanguage Modeling	—Unverified
VideoMCC: a New Benchmark for Video Comprehension	Jun 23, 2016	Multiple-choiceVideo Description	—Unverified
Visual-aware Attention Dual-stream Decoder for Video Captioning	Oct 16, 2021	DecoderVideo Captioning	—Unverified
A Comprehensive Review on Recent Methods and Challenges of Video Description	Nov 30, 2020	Machine TranslationSurvey	—Unverified
X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language Model	Apr 7, 2024	Action RecognitionDecision Making	—Unverified
ActionHub: A Large-scale Action Video Description Dataset for Zero-shot Action Recognition	Jan 22, 2024	Action RecognitionVideo Description	—Unverified
Active Learning for Video Description With Cluster-Regularized Ensemble Ranking	Jul 27, 2020	Active LearningVideo Captioning	—Unverified
A Dataset for Telling the Stories of Social Media Videos	Oct 1, 2018	SentenceVideo Captioning	—Unverified
A Labelled Dataset for Sentiment Analysis of Videos on YouTube, TikTok, and Other Sources about the 2024 Outbreak of Measles	Jun 11, 2024	Sentiment AnalysisSubjectivity Analysis	—Unverified
A Mid-level Video Representation based on Binary Descriptors: A Case Study for Pornography Detection	May 12, 2016	Pornography DetectionVideo Description	—Unverified
A Multi-scale Multiple Instance Video Description Network	May 21, 2015	Image SegmentationMultiple Instance Learning	—Unverified
Analyzing Political Figures in Real-Time: Leveraging YouTube Metadata for Sentiment Analysis	Sep 28, 2023	Sentiment AnalysisVideo Description	—Unverified
An Efficient Keyframes Selection Based Framework for Video Captioning	Dec 1, 2021	Text GenerationVideo Captioning	—Unverified
End-to-End Video Captioning	Apr 4, 2019	Action RecognitionCaption Generation	—Unverified
A Thousand Frames in Just a Few Words: Lingual Description of Videos through Latent Topics and Sparse Object Stitching	Jun 1, 2013	Image DescriptionVideo Description	—Unverified
Attend and Interact: Higher-Order Object Interactions for Video Understanding	Nov 16, 2017	Action ClassificationAction Recognition	—Unverified
Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)	Dec 12, 2023	DecoderVideo Captioning	—Unverified
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified
Attentive Sequence to Sequence Translation for Localizing Clips of Interest by Natural Language Descriptions	Aug 27, 2018	TranslationVideo Description	—Unverified
AVD2: Accident Video Diffusion for Accident Video Description	Feb 20, 2025	Autonomous DrivingScene Understanding	—Unverified
Better Exploiting Motion for Better Action Recognition	Jun 1, 2013	Action RecognitionImage Retrieval	—Unverified
Bidirectional Long-Short Term Memory for Video Description	Jun 15, 2016	Language ModelingLanguage Modelling	—Unverified
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified
Bridge Video and Text with Cascade Syntactic Structure	Aug 1, 2018	AttributeObject	—Unverified
FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning	Oct 20, 2024	DiagnosticVideo Captioning	—Unverified
Prediction and Description of Near-Future Activities in Video	Aug 2, 2019	PredictionVideo Captioning	—Unverified
CLearViD: Curriculum Learning for Video Description	Nov 8, 2023	DiversityVideo Description	—Unverified
Coherent Multi-Sentence Video Description with Variable Level of Detail	Mar 24, 2014	SentenceVideo Description	—Unverified
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified
DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description	Mar 31, 2025	Video DescriptionVideo Understanding	—Unverified
Efficient data-driven encoding of scene motion using Eccentricity	Mar 3, 2021	Activity RecognitionIntent Recognition	—Unverified
Enhancing Video Understanding: Deep Neural Networks for Spatiotemporal Analysis	Feb 11, 2025	Action RecognitionVideo Description	—Unverified
Generating Video Description using Sequence-to-sequence Model with Temporal Attention	Dec 1, 2016	Caption GenerationSentence	—Unverified
HENRY-CORE: Domain Adaptation and Stacking for Text Similarity	Jun 1, 2013	Domain AdaptationMachine Translation	—Unverified

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.