Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 104 papers

Title	Date	Tasks	Status	Score
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian	Jun 20, 2023	Cross-Lingual TransferRetrieval	CodeCode Available	5
SUSTechGAN: Image Generation for Object Detection in Adverse Conditions of Autonomous Driving	Jul 18, 2024	Autonomous DrivingImage Generation	CodeCode Available	5
Egocentric Video Description based on Temporally-Linked Sequences	Apr 7, 2017	DecoderVideo Description	CodeCode Available	5
JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models	Mar 5, 2024	In-Context LearningVideo Description	CodeCode Available	5
Edit As You Wish: Video Caption Editing with Multi-grained User Control	May 15, 2023	AttributePosition	CodeCode Available	5
Learn to Understand Negation in Video Retrieval	Apr 30, 2022	Natural Language QueriesNegation	CodeCode Available	5
Memory-augmented Attention Modelling for Videos	Nov 7, 2016	Video Description	CodeCode Available	5
Improving LSTM-based Video Description with Linguistic Knowledge Mined from Text	Apr 6, 2016	DescriptiveLanguage Modeling	CodeCode Available	5
End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features	Jun 21, 2018	Question AnsweringVideo Description	CodeCode Available	5
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified	0
DANTE-AD: Dual-Vision Attention Network for Long-Term Audio Description	Mar 31, 2025	Video DescriptionVideo Understanding	—Unverified	0
Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)	Dec 12, 2023	DecoderVideo Captioning	—Unverified	0
A Mid-level Video Representation based on Binary Descriptors: A Case Study for Pornography Detection	May 12, 2016	Pornography DetectionVideo Description	—Unverified	0
Cross-Modal Learning for Music-to-Music-Video Description Generation	Mar 14, 2025	Video DescriptionVideo Generation	—Unverified	0
Coherent Multi-Sentence Video Description with Variable Level of Detail	Mar 24, 2014	SentenceVideo Description	—Unverified	0
Attend and Interact: Higher-Order Object Interactions for Video Understanding	Nov 16, 2017	Action ClassificationAction Recognition	—Unverified	0
CLearViD: Curriculum Learning for Video Description	Nov 8, 2023	DiversityVideo Description	—Unverified	0
Prediction and Description of Near-Future Activities in Video	Aug 2, 2019	PredictionVideo Captioning	—Unverified	0
A Thousand Frames in Just a Few Words: Lingual Description of Videos through Latent Topics and Sparse Object Stitching	Jun 1, 2013	Image DescriptionVideo Description	—Unverified	0
A Labelled Dataset for Sentiment Analysis of Videos on YouTube, TikTok, and Other Sources about the 2024 Outbreak of Measles	Jun 11, 2024	Sentiment AnalysisSubjectivity Analysis	—Unverified	0
Active Learning for Video Description With Cluster-Regularized Ensemble Ranking	Jul 27, 2020	Active LearningVideo Captioning	—Unverified	0
FIOVA: A Multi-Annotator Benchmark for Human-Aligned Video Captioning	Oct 20, 2024	DiagnosticVideo Captioning	—Unverified	0
Incorporating Background Knowledge into Video Description Generation	Oct 1, 2018	DecoderText Generation	—Unverified	0
Incorporating Global Visual Features into Attention-based Neural Machine Translation.	Sep 1, 2017	DecoderMachine Translation	—Unverified	0
HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation	Mar 31, 2025	HallucinationHuman-Object Interaction Detection	—Unverified	0

Show:10 25 50

← PrevPage 2 of 5Next →

No leaderboard results yet.