Video Description

The goal of automatic Video Description is to tell a story about events happening in a video. While early Video Description methods produced captions for short clips that were manually segmented to contain a single event of interest, more recently dense video captioning has been proposed to both segment distinct events in time and describe them in a series of coherent sentences. This problem is a generalization of dense image region captioning and has many practical applications, such as generating textual summaries for the visually impaired, or detecting and describing important events in surveillance footage.

Source: Joint Event Detection and Description in Continuous Video Streams

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 104 papers

Title	Date	Tasks	Status	Hype
Egocentric Video Description based on Temporally-Linked Sequences	Apr 7, 2017	DecoderVideo Description	CodeCode Available	0
Attention-Based Multimodal Fusion for Video Description	Jan 11, 2017	DecoderSentence	—Unverified	0
Generating Video Description using Sequence-to-sequence Model with Temporal Attention	Dec 1, 2016	Caption GenerationSentence	—Unverified	0
Hierarchical Boundary-Aware Neural Encoder for Video Captioning	Nov 28, 2016	DecoderVideo Captioning	—Unverified	0
Memory-augmented Attention Modelling for Videos	Nov 7, 2016	Video Description	CodeCode Available	0
Neural Headline Generation on Abstract Meaning Representation	Nov 1, 2016	Abstract Meaning RepresentationDependency Parsing	—Unverified	0
Natural Language Descriptions of Human Activities Scenes: Corpus Generation and Analysis	Aug 1, 2016	Action ClassificationObject Recognition	—Unverified	0
SHEF-Multimodal: Grounding Machine Translation on Images	Aug 1, 2016	Machine TranslationMultimodal Machine Translation	—Unverified	0
VideoMCC: a New Benchmark for Video Comprehension	Jun 23, 2016	Multiple-choiceVideo Description	—Unverified	0
Bidirectional Long-Short Term Memory for Video Description	Jun 15, 2016	Language ModelingLanguage Modelling	—Unverified	0
MSR-VTT: A Large Video Description Dataset for Bridging Video and Language	Jun 1, 2016	Image CaptioningSentence	—Unverified	0
Noisy Parallel Approximate Decoding for Conditional Recurrent Language Model	May 12, 2016	Language ModelingLanguage Modelling	—Unverified	0
A Mid-level Video Representation based on Binary Descriptors: A Case Study for Pornography Detection	May 12, 2016	Pornography DetectionVideo Description	—Unverified	0
Video Description using Bidirectional Recurrent Neural Networks	Apr 12, 2016	DecoderText Generation	CodeCode Available	0
TGIF: A New Dataset and Benchmark on Animated GIF Description	Apr 10, 2016	Image CaptioningMachine Translation	CodeCode Available	0
Improving LSTM-based Video Description with Linguistic Knowledge Mined from Text	Apr 6, 2016	DescriptiveLanguage Modeling	CodeCode Available	0
Vectors of Locally Aggregated Centers for Compact Video Representation	Sep 13, 2015	ClusteringVideo Description	—Unverified	0
A Multi-scale Multiple Instance Video Description Network	May 21, 2015	Image SegmentationMultiple Instance Learning	—Unverified	0
Using Descriptive Video Services to Create a Large Data Source for Video Annotation Research	Mar 3, 2015	DescriptiveVideo Description	CodeCode Available	1
Describing Videos by Exploiting Temporal Structure	Feb 27, 2015	Action RecognitionImage Description	CodeCode Available	0
Probabilistic Soft Logic for Semantic Textual Similarity	Jun 1, 2014	Semantic Textual SimilarityVideo Description	—Unverified	0
Coherent Multi-Sentence Video Description with Variable Level of Detail	Mar 24, 2014	SentenceVideo Description	—Unverified	0
Semantic Neighborhoods as Hypergraphs	Aug 1, 2013	Machine TranslationParaphrase Generation	—Unverified	0
HENRY-CORE: Domain Adaptation and Stacking for Text Similarity	Jun 1, 2013	Domain AdaptationMachine Translation	—Unverified	0
Better Exploiting Motion for Better Action Recognition	Jun 1, 2013	Action RecognitionImage Retrieval	—Unverified	0

Show:10 25 50

← PrevPage 4 of 5Next →

No leaderboard results yet.