Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–450 of 473 papers

Title	Date	Tasks	Status
Bridging Vision and Language: Modeling Causality and Temporality in Video Narratives	Dec 14, 2024	DescriptiveLanguage Modeling	—Unverified
Understanding Action Sequences based on Video Captioning for Learning-from-Observation	Dec 9, 2020	Video CaptioningVideo Understanding	—Unverified
Bridge Video and Text with Cascade Syntactic Structure	Aug 1, 2018	AttributeObject	—Unverified
Boosting Video-Text Retrieval with Explicit High-Level Semantics	Aug 8, 2022	RetrievalText Retrieval	—Unverified
Boosting Video Representation Learning with Multi-Faceted Integration	Jan 11, 2022	Action RecognitionRepresentation Learning	—Unverified
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified
Bidirectional Multirate Reconstruction for Temporal Modeling in Videos	Nov 28, 2016	Event DetectionVideo Captioning	—Unverified
Variational Stacked Local Attention Networks for Diverse Video Captioning	Jan 4, 2022	DecoderDiversity	—Unverified
Bidirectional Long-Short Term Memory for Video Description	Jun 15, 2016	Language ModelingLanguage Modelling	—Unverified
Beyond Caption To Narrative: Video Captioning With Multiple Sentences	May 18, 2016	Action LocalizationImage Captioning	—Unverified
VATEX Captioning Challenge 2019: Multi-modal Information Fusion and Multi-stage Training Strategy for Video Captioning	Oct 13, 2019	Video Captioning	—Unverified
Vector Learning for Cross Domain Representations	Sep 27, 2018	DecoderImage Captioning	—Unverified
VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks	Jun 10, 2025	Multiple-choiceOpen-Ended Question Answering	—Unverified
Best Vision Technologies Submission to ActivityNet Challenge 2018-Task: Dense-Captioning Events in Videos	Jun 25, 2018	Dense CaptioningOptical Flow Estimation	—Unverified
ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation	Dec 12, 2024	Phrase GroundingQuestion Answering	—Unverified
Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding	Mar 24, 2024	Dense Video CaptioningTemporal Localization	—Unverified
Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning	Apr 7, 2021	DescriptiveText Summarization	—Unverified
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training	Jul 5, 2020	DecoderQuestion Answering	—Unverified
Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information	May 7, 2022	Text GenerationVideo Captioning	—Unverified
Attention is all you need for Videos: Self-attention based Video Summarization using Universal Transformers	Jun 6, 2019	AllDense Video Captioning	—Unverified
AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction	Jan 1, 2025	GPUQuestion Answering	—Unverified
Video Captioning: a comparative review of where we are and which could be the route	Apr 12, 2022	Video Captioning	—Unverified
Video Captioning in Compressed Video	Jan 2, 2021	Caption GenerationVideo Captioning	—Unverified
Video Captioning Using Weak Annotation	Sep 2, 2020	SentenceVideo Captioning	—Unverified
Video Captioning via Hierarchical Reinforcement Learning	Nov 29, 2017	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Video Captioning with Aggregated Features Based on Dual Graphs and Gated Fusion	Aug 13, 2023	Video Captioning	—Unverified
Video Captioning with Boundary-aware Hierarchical Language Decoding and Joint Video Prediction	Jul 8, 2018	DecoderLanguage Modeling	—Unverified
Video Captioning with Guidance of Multimodal Latent Topics	Aug 31, 2017	Caption GenerationDecoder	—Unverified
Video Captioning with Multi-Faceted Attention	Dec 1, 2016	Information RetrievalRetrieval	—Unverified
Attention based video captioning framework for Hindi	Jun 17, 2021	Video Captioning	—Unverified
Video Captioning with Text-based Dynamic Attention and Step-by-Step Learning	Nov 5, 2019	SentenceVideo Captioning	—Unverified
Video Captioning with Transferred Semantic Attributes	Nov 23, 2016	SentenceVideo Captioning	—Unverified
Attention Based Encoder Decoder Model for Video Captioning in Nepali (2023)	Dec 12, 2023	DecoderVideo Captioning	—Unverified
Graph Similarities and Dual Approach for Sequential Text-to-Image Retrieval	Sep 29, 2021	Graph EmbeddingImage Retrieval	—Unverified
Grounded Objects and Interactions for Video Captioning	Nov 16, 2017	ObjectScene Understanding	—Unverified
Global2Local: A Joint-Hierarchical Attention for Video Captioning	Mar 13, 2022	Video Captioning	—Unverified
GUI Action Narrator: Where and When Did That Action Take Place?	Jun 19, 2024	Optical Character Recognition (OCR)Video Captioning	—Unverified
Guidance Module Network for Video Captioning	Dec 20, 2020	DecoderSentence	—Unverified
Guiding the Flowing of Semantics: Interpretable Video Captioning via POS Tag	Nov 1, 2019	POSTAG	—Unverified
Get In Video: Add Anything You Want to the Video	Mar 8, 2025	object-detectionObject Detection	—Unverified
Generative Adversarial Network Applications in Creating a Meta-Universe	Jan 23, 2022	Generative Adversarial NetworkImage-to-Image Translation	—Unverified
Generating Video Descriptions with Topic Guidance	Aug 31, 2017	DecoderImage Captioning	—Unverified
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning	Dec 30, 2024	Contrastive LearningQuestion Answering	—Unverified
Hierarchical Boundary-Aware Neural Encoder for Video Captioning	Nov 28, 2016	DecoderVideo Captioning	—Unverified
Hierarchical LSTMs with Adaptive Attention for Visual Captioning	Dec 26, 2018	Caption GenerationImage Captioning	—Unverified
Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning	Jun 5, 2017	Caption GenerationDecoder	—Unverified
Hierarchical memory decoder for visual narrating	Sep 1, 2020	DecoderImage Captioning	—Unverified
Hierarchical Memory Decoding for Video Captioning	Feb 27, 2020	DecoderVideo Captioning	—Unverified
Exploiting Auxiliary Caption for Video Grounding	Jan 15, 2023	Contrastive LearningDense Video Captioning	—Unverified
Hierarchical Multimodal Transformer to Summarize Videos	Sep 22, 2021	Machine TranslationSupervised Video Summarization	—Unverified

Show:10 25 50

← PrevPage 9 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified