Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 104 papers

Title	Date	Tasks	Status
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified
Attentive Sequence to Sequence Translation for Localizing Clips of Interest by Natural Language Descriptions	Aug 27, 2018	TranslationVideo Description	—Unverified
AVD2: Accident Video Diffusion for Accident Video Description	Feb 20, 2025	Autonomous DrivingScene Understanding	—Unverified
Relational Graph Learning for Grounded Video Description Generation	Dec 2, 2021	Graph LearningHallucination	—Unverified
Saarland: Vector-based models of semantic textual similarity	Jul 1, 2012	Semantic Textual SimilarityVideo Description	—Unverified
Semantic Neighborhoods as Hypergraphs	Aug 1, 2013	Machine TranslationParaphrase Generation	—Unverified
SHEF-Multimodal: Grounding Machine Translation on Images	Aug 1, 2016	Machine TranslationMultimodal Machine Translation	—Unverified
SRIUBC: Simple Similarity Features for Semantic Textual Similarity	Jul 1, 2012	Natural Language InferenceParaphrase Identification	—Unverified
Synchronized Audio-Visual Frames with Fractional Positional Encoding for Transformers in Video-to-Text Translation	Dec 28, 2021	Image CaptioningMachine Translation	—Unverified
Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description	Jul 1, 2017	Video CaptioningVideo Description	—Unverified
Technical Report: Competition Solution For Modelscope-Sora	Sep 24, 2024	Text-to-Video GenerationVideo Description	—Unverified
The Role of the Input in Natural Language Video Description	Feb 9, 2021	Data AugmentationVideo Description	—Unverified
Towards Zero-Shot & Explainable Video Description by Reasoning over Graphs of Events in Space and Time	Jan 14, 2025	Object RecognitionText Generation	—Unverified
Unbox the Blackbox: Predict and Interpret YouTube Viewership Using Deep Learning	Dec 21, 2020	MisinformationPrediction	—Unverified
Vectors of Locally Aggregated Centers for Compact Video Representation	Sep 13, 2015	ClusteringVideo Description	—Unverified
VideoA11y: Method and Dataset for Accessible Video Description	Feb 27, 2025	Video Description	—Unverified
VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models	Oct 1, 2024	Hallucinationtext similarity	—Unverified
Video Description: A Survey of Methods, Datasets and Evaluation Metrics	Jun 1, 2018	DiversityLanguage Modeling	—Unverified
VideoMCC: a New Benchmark for Video Comprehension	Jun 23, 2016	Multiple-choiceVideo Description	—Unverified
Visual-aware Attention Dual-stream Decoder for Video Captioning	Oct 16, 2021	DecoderVideo Captioning	—Unverified
A Comprehensive Review on Recent Methods and Challenges of Video Description	Nov 30, 2020	Machine TranslationSurvey	—Unverified
JU\_CSE\_NLP: Multi-grade Classification of Semantic Similarity between Text Pairs	Jul 1, 2012	General ClassificationSemantic Similarity	—Unverified
Kubrick: Multimodal Agent Collaborations for Synthetic Video Generation	Aug 19, 2024	Instruction FollowingLarge Language Model	—Unverified
LLAVIDAL: A Large LAnguage VIsion Model for Daily Activities of Living	Jun 13, 2024	BenchmarkingHuman-Object Interaction Detection	—Unverified
MSR-VTT: A Large Video Description Dataset for Bridging Video and Language	Jun 1, 2016	Image CaptioningSentence	—Unverified
MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision and Language Research in Turkish	Dec 13, 2020	Machine TranslationMultimodal Machine Translation	—Unverified
Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering	Jan 3, 2020	Question AnsweringVideo Description	—Unverified
Multimodal Neural Machine Translation for Low-resource Language Pairs using Synthetic Data	Jul 1, 2018	Image DescriptionMachine Translation	—Unverified
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews)	Jan 23, 2024	MiscellaneousVideo Description	—Unverified
Multi Sentence Description of Complex Manipulation Action Videos	Nov 13, 2023	DecoderSentence	—Unverified
NarrationBot and InfoBot: A Hybrid System for Automated Video Description	Nov 7, 2021	Video Description	—Unverified
Natural Language Descriptions of Human Activities Scenes: Corpus Generation and Analysis	Aug 1, 2016	Action ClassificationObject Recognition	—Unverified
Neural Headline Generation on Abstract Meaning Representation	Nov 1, 2016	Abstract Meaning RepresentationDependency Parsing	—Unverified
Noisy Parallel Approximate Decoding for Conditional Recurrent Language Model	May 12, 2016	Language ModelingLanguage Modelling	—Unverified
Probabilistic Soft Logic for Semantic Textual Similarity	Jun 1, 2014	Semantic Textual SimilarityVideo Description	—Unverified
PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation	Oct 30, 2024	Anomaly DetectionDescriptive	—Unverified
JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models	Mar 5, 2024	In-Context LearningVideo Description	CodeCode Available
Predicting Visual Features from Text for Image and Video Caption Retrieval	Sep 5, 2017	RetrievalSentence	CodeCode Available
Describing Videos by Exploiting Temporal Structure	Feb 27, 2015	Action RecognitionImage Description	CodeCode Available
Learn to Understand Negation in Video Retrieval	Apr 30, 2022	Natural Language QueriesNegation	CodeCode Available
Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents	Aug 18, 2020	Video Description	CodeCode Available
Memory-augmented Attention Modelling for Videos	Nov 7, 2016	Video Description	CodeCode Available
TGIF: A New Dataset and Benchmark on Animated GIF Description	Apr 10, 2016	Image CaptioningMachine Translation	CodeCode Available
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian	Jun 20, 2023	Cross-Lingual TransferRetrieval	CodeCode Available
Adversarial Inference for Multi-Sentence Video Description	Dec 13, 2018	DiversityImage Captioning	CodeCode Available
Egocentric Video Description based on Temporally-Linked Sequences	Apr 7, 2017	DecoderVideo Description	CodeCode Available
Video Description using Bidirectional Recurrent Neural Networks	Apr 12, 2016	DecoderText Generation	CodeCode Available
Edit As You Wish: Video Caption Editing with Multi-grained User Control	May 15, 2023	AttributePosition	CodeCode Available
Implicit Location-Caption Alignment via Complementary Masking for Weakly-Supervised Dense Video Captioning	Dec 17, 2024	Dense Video CaptioningDescriptive	CodeCode Available
SUSTechGAN: Image Generation for Object Detection in Adverse Conditions of Autonomous Driving	Jul 18, 2024	Autonomous DrivingImage Generation	CodeCode Available

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.