Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 473 papers

Title	Date	Tasks	Status
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention	Sep 7, 2021	Sensor FusionVideo Captioning	CodeCode Available
Cross-Modal Graph with Meta Concepts for Video Captioning	Aug 14, 2021	object-detectionObject Detection	CodeCode Available
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning	Aug 5, 2021	AttributeCaption Generation	—Unverified
Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers	Aug 4, 2021	Video Captioning	—Unverified
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified
iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability	Jun 25, 2021	Bias DetectionQuestion Answering	—Unverified
Sketch, Ground, and Refine: Top-Down Dense Video Captioning	Jun 19, 2021	Dense Video CaptioningSentence	CodeCode Available
Towards Bridging Event Captioner and Sentence Localizer for Weakly Supervised Dense Event Captioning	Jun 19, 2021	SentenceVideo Captioning	—Unverified
Attention based video captioning framework for Hindi	Jun 17, 2021	Video Captioning	—Unverified
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	—Unverified
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching	May 18, 2021	Caption GenerationCross-Modal Retrieval	—Unverified
FIBER: Fill-in-the-Blanks as a Challenging Video Understanding Evaluation Framework	Apr 9, 2021	Language ModellingMultiple-choice	CodeCode Available
The Use of Video Captioning for Fostering Physical Activity	Apr 7, 2021	Action Detectionobject-detection	—Unverified
Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning	Apr 7, 2021	DescriptiveText Summarization	—Unverified
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified
Open-book Video Captioning with Retrieve-Copy-Generate Network	Mar 9, 2021	DecoderRetrieval	—Unverified
Recent Advances in Video Question Answering: A Review of Datasets and Methods	Jan 15, 2021	Information RetrievalMachine Translation	—Unverified
Exploration of Visual Features and their weighted-additive fusion for Video Captioning	Jan 14, 2021	Video Captioning	—Unverified
Video Captioning in Compressed Video	Jan 2, 2021	Caption GenerationVideo Captioning	—Unverified
Motion Guided Region Message Passing for Video Captioning	Jan 1, 2021	DecoderVideo Captioning	—Unverified
Guidance Module Network for Video Captioning	Dec 20, 2020	DecoderSentence	—Unverified
MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision and Language Research in Turkish	Dec 13, 2020	Machine TranslationMultimodal Machine Translation	—Unverified
Understanding Action Sequences based on Video Captioning for Learning-from-Observation	Dec 9, 2020	Video CaptioningVideo Understanding	—Unverified
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	Nov 16, 2020	Common Sense ReasoningDense Video Captioning	—Unverified
ActBERT: Learning Global-Local Video-Text Representations	Nov 14, 2020	Action SegmentationQuestion Answering	CodeCode Available
Semi-Supervised Learning for Video Captioning	Nov 1, 2020	Video Captioning	—Unverified
Transformer in action: a comparative study of transformer-based acoustic models for large scale speech recognition applications	Oct 27, 2020	speech-recognitionSpeech Recognition	—Unverified
TRECVID 2019: An Evaluation Campaign to Benchmark Video Activity Detection, Video Captioning and Matching, and Video Search & Retrieval	Sep 21, 2020	Action DetectionActivity Detection	—Unverified
Video captioning with stacked attention and semantic hard pull	Sep 15, 2020	DecoderVideo Captioning	CodeCode Available
Video Captioning Using Weak Annotation	Sep 2, 2020	SentenceVideo Captioning	—Unverified
Hierarchical memory decoder for visual narrating	Sep 1, 2020	DecoderImage Captioning	—Unverified
In-Home Daily-Life Captioning Using Radio Signals	Aug 25, 2020	Privacy PreservingVideo Captioning	—Unverified
Enriching Video Captions With Contextual Text	Jul 29, 2020	Video Captioning	CodeCode Available
Pre-training for Video Captioning Challenge 2020 Summary	Jul 27, 2020	Video Captioning	—Unverified
Active Learning for Video Description With Cluster-Regularized Ensemble Ranking	Jul 27, 2020	Active LearningVideo Captioning	—Unverified
SBAT: Video Captioning with Sparse Boundary-Aware Transformer	Jul 23, 2020	Machine Translationmultimodal interaction	—Unverified
Sparse Graph to Sequence Learning for Vision Conditioned Long Textual Sequence Generation	Jul 12, 2020	DecoderGraph-to-Sequence	—Unverified
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training	Jul 5, 2020	DecoderQuestion Answering	—Unverified
SACT: Self-Aware Multi-Space Feature Composition Transformer for Multinomial Attention for Video Captioning	Jun 25, 2020	Dense Video CaptioningVideo Captioning	—Unverified
Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring Sequential Events Detection for Dense Video Captioning	Jun 14, 2020	Dense CaptioningDense Video Captioning	—Unverified
NITS-VC System for VATEX Video Captioning Challenge 2020	Jun 7, 2020	DecoderMachine Translation	—Unverified
Screencast Tutorial Video Understanding	Jun 1, 2020	object-detectionObject Detection	CodeCode Available
Rethinking and Improving Natural Language Generation with Layer-Wise Multi-View Decoding	May 16, 2020	Abstractive Text SummarizationDecoder	—Unverified
Spatio-Temporal Graph for Video Captioning with Knowledge Distillation	Mar 31, 2020	Knowledge DistillationObject	—Unverified
Normalized and Geometry-Aware Self-Attention Network for Image Captioning	Mar 19, 2020	Image CaptioningMachine Translation	—Unverified
OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement	Mar 8, 2020	ObjectSentence	—Unverified
Hierarchical Memory Decoding for Video Captioning	Feb 27, 2020	DecoderVideo Captioning	—Unverified
Object Relational Graph with Teacher-Recommended Learning for Video Captioning	Feb 26, 2020	Language ModelingLanguage Modelling	—Unverified
Spatio-Temporal Ranked-Attention Networks for Video Captioning	Jan 17, 2020	Video Captioning	—Unverified
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 7 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified