Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 473 papers

Title	Date	Tasks	Status	Hype
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning	Nov 19, 2021	Dense Video CaptioningDiversity	—Unverified	0
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching	Nov 17, 2021	Language ModellingVideo Captioning	CodeCode Available	1
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Nov 16, 2021	RetrievalVideo Captioning	—Unverified	0
Fill-in-the-Blank: A Challenging Video Understanding Evaluation Framework	Nov 16, 2021	Multiple-choiceQuestion Answering	—Unverified	0
E-MMAD: Multimodal Advertising Caption Generation Based on Structured Information	Nov 16, 2021	Caption Generationvalid	—Unverified	0
Co-segmentation Inspired Attention Module for Video-based Computer Vision Tasks	Nov 14, 2021	Action ClassificationObject	CodeCode Available	1
Visual-aware Attention Dual-stream Decoder for Video Captioning	Oct 16, 2021	DecoderVideo Captioning	—Unverified	0
CLIP4Caption: CLIP for Video Caption	Oct 13, 2021	DecoderSentence	—Unverified	0
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations	Sep 30, 2021	Contrastive LearningRetrieval	—Unverified	0
OSVidCap: A Framework for the Simultaneous Recognition and Description of Concurrent Actions in Videos in an Open-Set Scenario	Sep 29, 2021	DecoderOpen Set Video Captioning	CodeCode Available	0
Graph Similarities and Dual Approach for Sequential Text-to-Image Retrieval	Sep 29, 2021	Graph EmbeddingImage Retrieval	—Unverified	0
Hierarchical Multimodal Transformer to Summarize Videos	Sep 22, 2021	Machine TranslationSupervised Video Summarization	—Unverified	0
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention	Sep 7, 2021	Sensor FusionVideo Captioning	CodeCode Available	0
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics	Aug 18, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
End-to-End Dense Video Captioning with Parallel Decoding	Aug 17, 2021	Caption GenerationDense Video Captioning	CodeCode Available	1
Cross-Modal Graph with Meta Concepts for Video Captioning	Aug 14, 2021	object-detectionObject Detection	CodeCode Available	0
Discriminative Latent Semantic Graph for Video Captioning	Aug 8, 2021	DecoderObject	CodeCode Available	1
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning	Aug 5, 2021	AttributeCaption Generation	—Unverified	0
Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers	Aug 4, 2021	Video Captioning	—Unverified	0
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified	0
iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability	Jun 25, 2021	Bias DetectionQuestion Answering	—Unverified	0
Sketch, Ground, and Refine: Top-Down Dense Video Captioning	Jun 19, 2021	Dense Video CaptioningSentence	CodeCode Available	0
Towards Bridging Event Captioner and Sentence Localizer for Weakly Supervised Dense Event Captioning	Jun 19, 2021	SentenceVideo Captioning	—Unverified	0
Attention based video captioning framework for Hindi	Jun 17, 2021	Video Captioning	—Unverified	0
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation	Jun 8, 2021	Multi-Task LearningQuestion Answering	CodeCode Available	1
DeCEMBERT: Learning from Noisy Instructional Videos via Dense Captions and Entropy Minimization	Jun 1, 2021	Question AnsweringRetrieval	CodeCode Available	1
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	—Unverified	0
Improving Generation and Evaluation of Visual Stories via Semantic Consistency	May 20, 2021	Image GenerationStory Visualization	CodeCode Available	1
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching	May 18, 2021	Caption GenerationCross-Modal Retrieval	—Unverified	0
FIBER: Fill-in-the-Blanks as a Challenging Video Understanding Evaluation Framework	Apr 9, 2021	Language ModellingMultiple-choice	CodeCode Available	0
Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning	Apr 7, 2021	DescriptiveText Summarization	—Unverified	0
The Use of Video Captioning for Fostering Physical Activity	Apr 7, 2021	Action Detectionobject-detection	—Unverified	0
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified	0
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1
A Comprehensive Review of the Video-to-Text Problem	Mar 27, 2021	Question AnsweringRetrieval	CodeCode Available	1
Open-book Video Captioning with Retrieve-Copy-Generate Network	Mar 9, 2021	DecoderRetrieval	—Unverified	0
The MSR-Video to Text Dataset with Clean Annotations	Feb 12, 2021	SentenceVideo Captioning	CodeCode Available	1
Semantic Grouping Network for Video Captioning	Feb 1, 2021	Video Captioning	CodeCode Available	1
Recent Advances in Video Question Answering: A Review of Datasets and Methods	Jan 15, 2021	Information RetrievalMachine Translation	—Unverified	0
Exploration of Visual Features and their weighted-additive fusion for Video Captioning	Jan 14, 2021	Video Captioning	—Unverified	0
A Reinforcement Learning Based Encoder-Decoder Framework for Learning Stock Trading Rules	Jan 8, 2021	DecoderDeep Reinforcement Learning	CodeCode Available	1
Video Captioning in Compressed Video	Jan 2, 2021	Caption GenerationVideo Captioning	—Unverified	0
Motion Guided Region Message Passing for Video Captioning	Jan 1, 2021	DecoderVideo Captioning	—Unverified	0
Guidance Module Network for Video Captioning	Dec 20, 2020	DecoderSentence	—Unverified	0
MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision and Language Research in Turkish	Dec 13, 2020	Machine TranslationMultimodal Machine Translation	—Unverified	0
Understanding Action Sequences based on Video Captioning for Learning-from-Observation	Dec 9, 2020	Video CaptioningVideo Understanding	—Unverified	0
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks	Nov 23, 2020	Action ClassificationAction Localization	CodeCode Available	1
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language	Nov 18, 2020	Dictionary LearningDisentanglement	CodeCode Available	1
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	Nov 16, 2020	Common Sense ReasoningDense Video Captioning	—Unverified	0
ActBERT: Learning Global-Local Video-Text Representations	Nov 14, 2020	Action SegmentationQuestion Answering	CodeCode Available	0

Show:10 25 50

← PrevPage 6 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified