Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 473 papers

Title	Date	Tasks	Status	Score
Video Description using Bidirectional Recurrent Neural Networks	Apr 12, 2016	DecoderText Generation	CodeCode Available	5
Video Summarization: Towards Entity-Aware Captions	Dec 1, 2023	Image CaptioningVideo Captioning	CodeCode Available	5
Visual Transformation Telling	May 3, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	5
Watch, Listen, and Describe: Globally and Locally Aligned Cross-Modal Attentions for Video Captioning	Apr 15, 2018	Video CaptioningVideo Understanding	CodeCode Available	5
Interactive-predictive neural multimodal systems	May 30, 2019	Machine TranslationTranslation	—Unverified	0
Interpretable Video Captioning via Trajectory Structured Localization	Jun 1, 2018	DecoderImage Captioning	—Unverified	0
iPerceive: Applying Common-Sense Reasoning to Multi-Modal Dense Video Captioning and Video Question Answering	Nov 16, 2020	Common Sense ReasoningDense Video Captioning	—Unverified	0
iReason: Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability	Jun 25, 2021	Bias DetectionQuestion Answering	—Unverified	0
It's Just Another Day: Unique Video Captioning by Discriminative Prompting	Oct 15, 2024	Video Captioning	—Unverified	0
A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection)	May 2, 2024	Acoustic Scene ClassificationEvent Detection	—Unverified	0
Jointly Localizing and Describing Events for Dense Video Captioning	Apr 23, 2018	AttributeDense Video Captioning	—Unverified	0
Joint Syntax Representation Learning and Visual Cue Translation for Video Captioning	Oct 1, 2019	POSPOS Tagging	—Unverified	0
Knowledge Distillation for Efficient Audio-Visual Video Captioning	Jun 16, 2023	Audio-Visual Video CaptioningCaption Generation	—Unverified	0
Knowledge Guided Entity-aware Video Captioning and A Basketball Benchmark	Jan 25, 2024	DecoderVideo Captioning	—Unverified	0
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity	Nov 23, 2024	AttributeCross-Modal Retrieval	—Unverified	0
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision	Apr 15, 2023	Language ModelingLanguage Modelling	—Unverified	0
Fill-in-the-Blank: A Challenging Video Understanding Evaluation Framework	Nov 16, 2021	Multiple-choiceQuestion Answering	—Unverified	0
Rethinking and Improving Natural Language Generation with Layer-Wise Multi-View Decoding	May 16, 2020	Abstractive Text SummarizationDecoder	—Unverified	0
Learning Actions from Human Demonstration Video for Robotic Manipulation	Sep 10, 2019	Video Captioning	—Unverified	0
Learning Audio-Video Modalities from Image Captions	Apr 1, 2022	Image CaptioningRetrieval	—Unverified	0
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks	Oct 10, 2022	RetrievalText to Video Retrieval	—Unverified	0
Learning Interactive Real-World Simulators	Oct 9, 2023	Video Captioning	—Unverified	0
Exploring the Role of Audio in Video Captioning	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified	0
Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning	Nov 7, 2018	Mixture-of-ExpertsVideo Captioning	—Unverified	0
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning	Dec 16, 2024	Contrastive LearningDense Video Captioning	—Unverified	0
Exploring Group Video Captioning with Efficient Relational Approximation	Jan 1, 2023	Video Captioning	—Unverified	0
Less Is More: Picking Informative Frames for Video Captioning	Mar 5, 2018	DecoderDiversity	—Unverified	0
A Shared Task on Multimodal Machine Translation and Crosslingual Image Description	Aug 1, 2016	Image DescriptionImage Retrieval	—Unverified	0
Exploration of Visual Features and their weighted-additive fusion for Video Captioning	Jan 14, 2021	Video Captioning	—Unverified	0
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models	Feb 21, 2025	Caption GenerationVideo Captioning	—Unverified	0
LongVILA: Scaling Long-Context Visual Language Models for Long Videos	Aug 19, 2024	Video CaptioningVideo Question Answering	—Unverified	0
Low-Rank HOCA: Efficient High-Order Cross-Modal Attention for Video Captioning	Nov 1, 2019	DecoderTensor Decomposition	—Unverified	0
Exploiting long-term temporal dynamics for video captioning	Feb 22, 2022	Video Captioning	—Unverified	0
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos	Nov 28, 2023	Dense Video CaptioningTransfer Learning	—Unverified	0
M3: Multimodal Memory Modelling for Video Captioning	Jun 1, 2018	SentenceVideo Captioning	—Unverified	0
EVLM: An Efficient Vision-Language Model for Visual Understanding	Jul 19, 2024	Image CaptioningLanguage Modeling	—Unverified	0
Video LLMs for Temporal Reasoning in Long Videos	Dec 4, 2024	Action SegmentationDense Video Captioning	—Unverified	0
MAMS: Model-Agnostic Module Selection Framework for Video Captioning	Jan 30, 2025	Caption GenerationVideo Captioning	—Unverified	0
Event-Equalized Dense Video Captioning	Jan 1, 2025	Dense Video CaptioningVideo Captioning	—Unverified	0
MAViC: Multimodal Active Learning for Video Captioning	Dec 11, 2022	Active LearningDecoder	—Unverified	0
MCF-VC: Mitigate Catastrophic Forgetting in Class-Incremental Learning for Multimodal Video Captioning	Feb 27, 2024	class-incremental learningClass Incremental Learning	—Unverified	0
ARGUS: Hallucination and Omission Evaluation in Video-LLMs	Jun 9, 2025	DescriptiveForm	—Unverified	0
EVC-MF: End-to-end Video Captioning Network with Multi-scale Features	Oct 22, 2024	DecoderVideo Captioning	—Unverified	0
VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation	May 4, 2023	DecoderQuestion Answering	—Unverified	0
Memory-Attended Recurrent Network for Video Captioning	May 10, 2019	DecoderVideo Captioning	—Unverified	0
Video Paragraph Captioning Using Hierarchical Recurrent Neural Networks	Oct 26, 2015	SentenceVideo Captioning	—Unverified	0
Middle-Out Decoding	Oct 28, 2018	DecoderDiversity	—Unverified	0
MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models	Oct 13, 2024	Cross-Modal RetrievalQuestion Answering	—Unverified	0
Modality Alignment between Deep Representations for Effective Video-and-Language Learning	Jun 1, 2022	Question AnsweringVideo Captioning	—Unverified	0
Models See Hallucinations: Evaluating the Factuality in Video Captioning	Mar 6, 2023	Text GenerationVideo Captioning	—Unverified	0

Show:10 25 50

← PrevPage 5 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified