Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 104 papers

Title	Date	Tasks	Status	Hype
Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents	Aug 18, 2020	Video Description	CodeCode Available	0
Active Learning for Video Description With Cluster-Regularized Ensemble Ranking	Jul 27, 2020	Active LearningVideo Captioning	—Unverified	0
Delving Deeper into the Decoder for Video Captioning	Jan 16, 2020	DecoderSentence	CodeCode Available	1
Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering	Jan 3, 2020	Question AnsweringVideo Description	—Unverified	0
VizSeq: A Visual Analysis Toolkit for Text Generation Tasks	Sep 12, 2019	BenchmarkingImage Captioning	CodeCode Available	0
Prediction and Description of Near-Future Activities in Video	Aug 2, 2019	PredictionVideo Captioning	—Unverified	0
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research	Apr 6, 2019	Machine TranslationTranslation	CodeCode Available	1
End-to-End Video Captioning	Apr 4, 2019	Action RecognitionCaption Generation	—Unverified	0
Grounded Video Description	Dec 17, 2018	Image DescriptionSentence	CodeCode Available	1
Adversarial Inference for Multi-Sentence Video Description	Dec 13, 2018	DiversityImage Captioning	CodeCode Available	0
Incorporating Background Knowledge into Video Description Generation	Oct 1, 2018	DecoderText Generation	—Unverified	0
A Dataset for Telling the Stories of Social Media Videos	Oct 1, 2018	SentenceVideo Captioning	—Unverified	0
Attentive Sequence to Sequence Translation for Localizing Clips of Interest by Natural Language Descriptions	Aug 27, 2018	TranslationVideo Description	—Unverified	0
Bridge Video and Text with Cascade Syntactic Structure	Aug 1, 2018	AttributeObject	—Unverified	0
Multimodal Neural Machine Translation for Low-resource Language Pairs using Synthetic Data	Jul 1, 2018	Image DescriptionMachine Translation	—Unverified	0
End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features	Jun 21, 2018	Question AnsweringVideo Description	CodeCode Available	0
Interpretable Video Captioning via Trajectory Structured Localization	Jun 1, 2018	DecoderImage Captioning	—Unverified	0
Audio Visual Scene-Aware Dialog (AVSD) Challenge at DSTC7	Jun 1, 2018	Video DescriptionVisual Dialog	CodeCode Available	1
Video Description: A Survey of Methods, Datasets and Evaluation Metrics	Jun 1, 2018	DiversityLanguage Modeling	—Unverified	0
Incorporating Semantic Attention in Video Description Generation	May 1, 2018	Image CaptioningImage Classification	—Unverified	0
Integrating both Visual and Audio Cues for Enhanced Video Caption	Nov 22, 2017	DescriptiveSentence	—Unverified	0
Attend and Interact: Higher-Order Object Interactions for Video Understanding	Nov 16, 2017	Action ClassificationAction Recognition	—Unverified	0
Predicting Visual Features from Text for Image and Video Caption Retrieval	Sep 5, 2017	RetrievalSentence	CodeCode Available	0
Incorporating Global Visual Features into Attention-based Neural Machine Translation.	Sep 1, 2017	DecoderMachine Translation	—Unverified	0
Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description	Jul 1, 2017	Video CaptioningVideo Description	—Unverified	0
Egocentric Video Description based on Temporally-Linked Sequences	Apr 7, 2017	DecoderVideo Description	CodeCode Available	0
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified	0
Generating Video Description using Sequence-to-sequence Model with Temporal Attention	Dec 1, 2016	Caption GenerationSentence	—Unverified	0
Hierarchical Boundary-Aware Neural Encoder for Video Captioning	Nov 28, 2016	DecoderVideo Captioning	—Unverified	0
Memory-augmented Attention Modelling for Videos	Nov 7, 2016	Video Description	CodeCode Available	0
Neural Headline Generation on Abstract Meaning Representation	Nov 1, 2016	Abstract Meaning RepresentationDependency Parsing	—Unverified	0
Natural Language Descriptions of Human Activities Scenes: Corpus Generation and Analysis	Aug 1, 2016	Action ClassificationObject Recognition	—Unverified	0
SHEF-Multimodal: Grounding Machine Translation on Images	Aug 1, 2016	Machine TranslationMultimodal Machine Translation	—Unverified	0
VideoMCC: a New Benchmark for Video Comprehension	Jun 23, 2016	Multiple-choiceVideo Description	—Unverified	0
Bidirectional Long-Short Term Memory for Video Description	Jun 15, 2016	Language ModelingLanguage Modelling	—Unverified	0
MSR-VTT: A Large Video Description Dataset for Bridging Video and Language	Jun 1, 2016	Image CaptioningSentence	—Unverified	0
Noisy Parallel Approximate Decoding for Conditional Recurrent Language Model	May 12, 2016	Language ModelingLanguage Modelling	—Unverified	0
A Mid-level Video Representation based on Binary Descriptors: A Case Study for Pornography Detection	May 12, 2016	Pornography DetectionVideo Description	—Unverified	0
Video Description using Bidirectional Recurrent Neural Networks	Apr 12, 2016	DecoderText Generation	CodeCode Available	0
TGIF: A New Dataset and Benchmark on Animated GIF Description	Apr 10, 2016	Image CaptioningMachine Translation	CodeCode Available	0
Improving LSTM-based Video Description with Linguistic Knowledge Mined from Text	Apr 6, 2016	DescriptiveLanguage Modeling	CodeCode Available	0
Vectors of Locally Aggregated Centers for Compact Video Representation	Sep 13, 2015	ClusteringVideo Description	—Unverified	0
A Multi-scale Multiple Instance Video Description Network	May 21, 2015	Image SegmentationMultiple Instance Learning	—Unverified	0
Using Descriptive Video Services to Create a Large Data Source for Video Annotation Research	Mar 3, 2015	DescriptiveVideo Description	CodeCode Available	1
Describing Videos by Exploiting Temporal Structure	Feb 27, 2015	Action RecognitionImage Description	CodeCode Available	0
Probabilistic Soft Logic for Semantic Textual Similarity	Jun 1, 2014	Semantic Textual SimilarityVideo Description	—Unverified	0
Coherent Multi-Sentence Video Description with Variable Level of Detail	Mar 24, 2014	SentenceVideo Description	—Unverified	0
Semantic Neighborhoods as Hypergraphs	Aug 1, 2013	Machine TranslationParaphrase Generation	—Unverified	0
HENRY-CORE: Domain Adaptation and Stacking for Text Similarity	Jun 1, 2013	Domain AdaptationMachine Translation	—Unverified	0
Better Exploiting Motion for Better Action Recognition	Jun 1, 2013	Action RecognitionImage Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.