Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 473 papers

Title	Date	Tasks	Status
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations	Sep 30, 2021	Contrastive LearningRetrieval	—Unverified
Crowd Video Captioning	Nov 13, 2019	Video Captioning	—Unverified
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified
Deep Reinforcement Learning for NLP	Jul 1, 2018	Atari Gamescoreference-resolution	—Unverified
Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols	Nov 5, 2023	Caption GenerationDense Video Captioning	—Unverified
Dense Video Captioning using Graph-based Sentence Summarization	Jun 25, 2025	Dense Video CaptioningSentence	—Unverified
Describe Anything: Detailed Localized Image and Video Captioning	Apr 22, 2025	SentenceVideo Captioning	—Unverified
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement	Apr 3, 2024	Dense Video CaptioningDiversity	—Unverified
Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks	Jun 24, 2024	Question AnsweringText Generation	—Unverified
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions	Jan 17, 2022	Video CaptioningVisual Dialog	—Unverified
Diverse Video Captioning Through Latent Variable Expansion	Oct 26, 2019	DiversityGenerative Adversarial Network	—Unverified
Dual-Level Decoupled Transformer for Video Captioning	May 6, 2022	DescriptiveSentence	—Unverified
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning	Nov 19, 2021	Dense Video CaptioningDiversity	—Unverified
E-MMAD: Multimodal Advertising Caption Generation Based on Structured Information	Nov 16, 2021	Caption Generationvalid	—Unverified
Empirical Autopsy of Deep Video Captioning Frameworks	Nov 21, 2019	DecoderLanguage Modelling	—Unverified
Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video Captioning	Oct 2, 2023	DecoderSentence	—Unverified
End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question Answering	Oct 10, 2016	Language ModelingLanguage Modelling	—Unverified
End-to-end Dense Video Captioning as Sequence Generation	Jan 16, 2022	Dense Video CaptioningDescriptive	—Unverified
End-to-end Dense Video Captioning as Sequence Generation	Apr 18, 2022	Dense Video CaptioningDescriptive	—Unverified
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified
Evaluation of Automatic Video Captioning Using Direct Assessment	Oct 29, 2017	Caption GenerationMachine Translation	—Unverified
EVC-MF: End-to-end Video Captioning Network with Multi-scale Features	Oct 22, 2024	DecoderVideo Captioning	—Unverified
Event-Equalized Dense Video Captioning	Jan 1, 2025	Dense Video CaptioningVideo Captioning	—Unverified
EVLM: An Efficient Vision-Language Model for Visual Understanding	Jul 19, 2024	Image CaptioningLanguage Modeling	—Unverified
Exo2EgoDVC: Dense Video Captioning of Egocentric Procedural Activities Using Web Instructional Videos	Nov 28, 2023	Dense Video CaptioningTransfer Learning	—Unverified
Exploiting long-term temporal dynamics for video captioning	Feb 22, 2022	Video Captioning	—Unverified
Exploration of Visual Features and their weighted-additive fusion for Video Captioning	Jan 14, 2021	Video Captioning	—Unverified
Exploring Group Video Captioning with Efficient Relational Approximation	Jan 1, 2023	Video Captioning	—Unverified
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning	Dec 16, 2024	Contrastive LearningDense Video Captioning	—Unverified
Exploring the Role of Audio in Video Captioning	Jun 21, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks	Oct 10, 2022	RetrievalText to Video Retrieval	—Unverified
Fill-in-the-Blank: A Challenging Video Understanding Evaluation Framework	Nov 16, 2021	Multiple-choiceQuestion Answering	—Unverified
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity	Nov 23, 2024	AttributeCross-Modal Retrieval	—Unverified
Fine-grained length controllable video captioning with ordinal embeddings	Aug 27, 2024	Video Captioning	—Unverified
Fine-Grained Video Captioning for Sports Narrative	Jun 1, 2018	2kVideo Captioning	—Unverified
Fine-Grained Video Captioning through Scene Graph Consolidation	Feb 23, 2025	Caption GenerationImage Captioning	—Unverified
CaReBench: A Fine-Grained Benchmark for Video Captioning and Retrieval	Dec 31, 2024	RetrievalText Retrieval	—Unverified
From Deterministic to Generative: Multi-Modal Stochastic RNNs for Video Captioning	Aug 8, 2017	DecoderVideo Captioning	—Unverified
Exploiting Auxiliary Caption for Video Grounding	Jan 15, 2023	Contrastive LearningDense Video Captioning	—Unverified
Generating Video Descriptions with Topic Guidance	Aug 31, 2017	DecoderImage Captioning	—Unverified
Generative Adversarial Network Applications in Creating a Meta-Universe	Jan 23, 2022	Generative Adversarial NetworkImage-to-Image Translation	—Unverified
Get In Video: Add Anything You Want to the Video	Mar 8, 2025	object-detectionObject Detection	—Unverified
Global2Local: A Joint-Hierarchical Attention for Video Captioning	Mar 13, 2022	Video Captioning	—Unverified
Graph Similarities and Dual Approach for Sequential Text-to-Image Retrieval	Sep 29, 2021	Graph EmbeddingImage Retrieval	—Unverified
Grounded Objects and Interactions for Video Captioning	Nov 16, 2017	ObjectScene Understanding	—Unverified
GUI Action Narrator: Where and When Did That Action Take Place?	Jun 19, 2024	Optical Character Recognition (OCR)Video Captioning	—Unverified
Guidance Module Network for Video Captioning	Dec 20, 2020	DecoderSentence	—Unverified
Guiding the Flowing of Semantics: Interpretable Video Captioning via POS Tag	Nov 1, 2019	POSTAG	—Unverified
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning	Dec 30, 2024	Contrastive LearningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 6 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified