Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 104 papers

Title	Date	Tasks	Status	Hype	Score
Tarsier: Recipes for Training and Evaluating Large Video Description Models	Jun 30, 2024	Video CaptioningVideo Description	CodeCode Available	4	5
Tarsier2: Advancing Large Vision-Language Models from Detailed Video Description to Comprehensive Video Understanding	Jan 14, 2025	Embodied Question AnsweringHallucination	CodeCode Available	4	5
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers	Feb 29, 2024	RetrievalText Retrieval	CodeCode Available	4	5
Hawk: Learning to Understand Open-World Video Anomalies	May 27, 2024	Anomaly DetectionQuestion Answering	CodeCode Available	3	5
TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning	Apr 14, 2024	Dense Video CaptioningDescriptive	CodeCode Available	2	5
StoryTeller: Improving Long Video Description through Global Audio-Visual Character Identification	Nov 11, 2024	Large Language ModelMultimodal Large Language Model	CodeCode Available	2	5
Grounded Video Description	Dec 17, 2018	Image DescriptionSentence	CodeCode Available	1	5
FunQA: Towards Surprising Video Comprehension	Jun 26, 2023	Question AnsweringText Generation	CodeCode Available	1	5
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research	Apr 6, 2019	Machine TranslationTranslation	CodeCode Available	1	5
Identity-Aware Multi-Sentence Video Description	Aug 22, 2020	Gender PredictionSentence	CodeCode Available	1	5
What's in a Caption? Dataset-Specific Linguistic Diversity and Its Effect on Visual Description Models and Metrics	May 12, 2022	DiversityVideo Description	CodeCode Available	1	5
Fine-grained Audible Video Description	Mar 27, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
Thinking Hallucination for Video Captioning	Sep 28, 2022	HallucinationVideo Captioning	CodeCode Available	1	5
Audio Visual Scene-Aware Dialog (AVSD) Challenge at DSTC7	Jun 1, 2018	Video DescriptionVisual Dialog	CodeCode Available	1	5
Delving Deeper into the Decoder for Video Captioning	Jan 16, 2020	DecoderSentence	CodeCode Available	1	5
Using Descriptive Video Services to Create a Large Data Source for Video Annotation Research	Mar 3, 2015	DescriptiveVideo Description	CodeCode Available	1	5
Predicting Visual Features from Text for Image and Video Caption Retrieval	Sep 5, 2017	RetrievalSentence	CodeCode Available	0	5
Memory-augmented Attention Modelling for Videos	Nov 7, 2016	Video Description	CodeCode Available	0	5
Learn to Understand Negation in Video Retrieval	Apr 30, 2022	Natural Language QueriesNegation	CodeCode Available	0	5
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian	Jun 20, 2023	Cross-Lingual TransferRetrieval	CodeCode Available	0	5
SUSTechGAN: Image Generation for Object Detection in Adverse Conditions of Autonomous Driving	Jul 18, 2024	Autonomous DrivingImage Generation	CodeCode Available	0	5
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available	0	5
Improving LSTM-based Video Description with Linguistic Knowledge Mined from Text	Apr 6, 2016	DescriptiveLanguage Modeling	CodeCode Available	0	5
JMI at SemEval 2024 Task 3: Two-step approach for multimodal ECAC using in-context learning with GPT and instruction-tuned Llama models	Mar 5, 2024	In-Context LearningVideo Description	CodeCode Available	0	5
Adversarial Inference for Multi-Sentence Video Description	Dec 13, 2018	DiversityImage Captioning	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 5Next →

No leaderboard results yet.