Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 473 papers

Title	Date	Tasks	Status
Hierarchical Boundary-Aware Neural Encoder for Video Captioning	Nov 28, 2016	DecoderVideo Captioning	—Unverified
Hierarchical LSTMs with Adaptive Attention for Visual Captioning	Dec 26, 2018	Caption GenerationImage Captioning	—Unverified
Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning	Jun 5, 2017	Caption GenerationDecoder	—Unverified
Hierarchical memory decoder for visual narrating	Sep 1, 2020	DecoderImage Captioning	—Unverified
Hierarchical Memory Decoding for Video Captioning	Feb 27, 2020	DecoderVideo Captioning	—Unverified
Hierarchical Multimodal Transformer to Summarize Videos	Sep 22, 2021	Machine TranslationSupervised Video Summarization	—Unverified
Hierarchical Recurrent Neural Encoder for Video Representation with Application to Captioning	Nov 11, 2015	image-classificationImage Classification	—Unverified
Hierarchical Recurrent Neural Network for Video Summarization	Apr 28, 2019	Video CaptioningVideo Summarization	—Unverified
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training	Dec 30, 2022	cross-modal alignmentTGIF-Action	—Unverified
HiVLP: Hierarchical Interactive Video-Language Pre-Training	Jan 1, 2023	RetrievalSelf-Supervised Learning	—Unverified
Human Action Sequence Classification	Oct 7, 2019	Action ClassificationAction Localization	—Unverified
Human-centric Behavior Description in Videos: New Benchmark and Model	Oct 4, 2023	Video Captioning	—Unverified
HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation	Nov 27, 2024	Graph GenerationQuestion Answering	—Unverified
IcoCap: Improving Video Captioning by Compounding Images	Oct 5, 2023	Image CaptioningVideo Captioning	—Unverified
Image-to-Video Person Re-Identification by Reusing Cross-modal Embeddings	Oct 4, 2018	Image CaptioningImage-To-Video Person Re-Identification	—Unverified
Imperial College London Submission to VATEX Video Captioning Task	Oct 16, 2019	DecoderVideo Captioning	—Unverified
Implicit and Explicit Commonsense for Multi-sentence Video Captioning	Mar 14, 2023	Imitation LearningSentence	—Unverified
Improving Interpretability of Deep Neural Networks with Semantic Information	Mar 12, 2017	Action RecognitionTemporal Action Localization	—Unverified
Incorporating Background Knowledge into Video Description Generation	Oct 1, 2018	DecoderText Generation	—Unverified
Incorporating granularity bias as the margin into contrastive loss for video captioning	Nov 25, 2023	Contrastive LearningSentence	—Unverified
In-Home Daily-Life Captioning Using Radio Signals	Aug 25, 2020	Privacy PreservingVideo Captioning	—Unverified
Integrating Temporal and Spatial Attentions for VATEX Video Captioning Challenge 2019	Oct 15, 2019	Video Captioning	—Unverified
Interactive-predictive neural multimodal systems	May 30, 2019	Machine TranslationTranslation	—Unverified
Interpretable Video Captioning via Trajectory Structured Localization	Jun 1, 2018	DecoderImage Captioning	—Unverified
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	Nov 16, 2020	Common Sense ReasoningDense Video Captioning	—Unverified
iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability	Jun 25, 2021	Bias DetectionQuestion Answering	—Unverified
It's Just Another Day: Unique Video Captioning by Discriminative Prompting	Oct 15, 2024	Video Captioning	—Unverified
Jointly Localizing and Describing Events for Dense Video Captioning	Apr 23, 2018	AttributeDense Video Captioning	—Unverified
Joint Syntax Representation Learning and Visual Cue Translation for Video Captioning	Oct 1, 2019	POSPOS Tagging	—Unverified
Knowledge Distillation for Efficient Audio-Visual Video Captioning	Jun 16, 2023	Audio-Visual Video CaptioningCaption Generation	—Unverified
Knowledge Guided Entity-aware Video Captioning and A Basketball Benchmark	Jan 25, 2024	DecoderVideo Captioning	—Unverified
Semi-Supervised Learning for Video Captioning	Nov 1, 2020	Video Captioning	—Unverified
SEM-POS: Grammatically and Semantically Correct Video Captioning	Mar 26, 2023	POSVideo Captioning	—Unverified
Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding	Nov 25, 2024	Dense Video CaptioningTransfer Learning	—Unverified
Set Prediction Guided by Semantic Concepts for Diverse Video Captioning	Dec 25, 2023	Caption GenerationDiversity	—Unverified
Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization	Jun 25, 2025	Dense Video CaptioningDescriptive	—Unverified
SMArT: Training Shallow Memory-aware Transformers for Robotic Explainability	Oct 7, 2019	Text GenerationVideo Captioning	—Unverified
SnapCap: Efficient Snapshot Compressive Video Captioning	Jan 10, 2024	Compressive SensingVideo Captioning	—Unverified
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation	Mar 8, 2024	ArticlesHallucination	—Unverified
Sparse Graph to Sequence Learning for Vision Conditioned Long Textual Sequence Generation	Jul 12, 2020	DecoderGraph-to-Sequence	—Unverified
Spatio-Temporal Attention Models for Grounded Video Captioning	Oct 17, 2016	image-classificationImage Classification	—Unverified
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning	Feb 27, 2019	AttributeCaption Generation	—Unverified
Spatio-Temporal Ranked-Attention Networks for Video Captioning	Jan 17, 2020	Video Captioning	—Unverified
SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities	Nov 4, 2024	AttributeDescriptive	—Unverified
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training	Feb 20, 2023	Language ModellingObject	—Unverified
Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges	Jun 4, 2024	Question AnsweringStory Generation	—Unverified
Storytelling of Photo Stream with Bidirectional Multi-thread Recurrent Neural Network	Jun 2, 2016	Video CaptioningVisual Storytelling	—Unverified
Streaming Dense Video Captioning	Apr 1, 2024	Dense Video CaptioningLive Video Captioning	—Unverified
Style-transfer based Speech and Audio-visual Scene Understanding for Robot Action Sequence Acquisition from Videos	Jun 27, 2023	Multi-Task LearningScene Understanding	—Unverified
SOVC: Subject-Oriented Video Captioning	Dec 20, 2023	Video Captioning	—Unverified

Show:10 25 50

← PrevPage 7 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified