Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 473 papers

Title	Date	Tasks	Status	Hype
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer	Aug 12, 2024	Text-to-Video GenerationVideo Alignment	CodeCode Available	11
VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs	Jun 11, 2024	Multiple-choiceQuestion Answering	CodeCode Available	5
ShareGPT4Video: Improving Video Understanding and Generation with Better Captions	Jun 6, 2024	Video CaptioningVideo Generation	CodeCode Available	5
Tarsier: Recipes for Training and Evaluating Large Video Description Models	Jun 30, 2024	Video CaptioningVideo Description	CodeCode Available	4
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers	Feb 29, 2024	RetrievalText Retrieval	CodeCode Available	4
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video	Feb 1, 2023	Action ClassificationImage Classification	CodeCode Available	4
Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding	Feb 9, 2025	Image CaptioningImage-text Retrieval	CodeCode Available	3
VideoGPT+: Integrating Image and Video Encoders for Enhanced Video Understanding	Jun 13, 2024	Dense Video CaptioningMVBench	CodeCode Available	3
MA-LMM: Memory-Augmented Large Multimodal Model for Long-Term Video Understanding	Apr 8, 2024	GPUMultiple-choice	CodeCode Available	3
GiT: Towards Generalist Vision Transformer through Universal Language Interface	Mar 14, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
Video ReCap: Recursive Captioning of Hour-Long Videos	Feb 20, 2024	EgoSchemaVideo Captioning	CodeCode Available	3
CausalVLR: A Toolbox and Benchmark for Visual-Linguistic Causal Reasoning	Jun 30, 2023	Causal InferenceMedical Report Generation	CodeCode Available	3
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends	Oct 17, 2022	Few-Shot LearningImage Captioning	CodeCode Available	3
video-SALMONN 2: Captioning-Enhanced Audio-Visual Large Language Models	Jun 18, 2025	Audio captioningLarge Language Model	CodeCode Available	2
Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting	Apr 7, 2025	Boundary DetectionObject	CodeCode Available	2
LVD-2M: A Long-take Video Dataset with Temporally Dense Captions	Oct 14, 2024	Video CaptioningVideo Generation	CodeCode Available	2
Grounded-VideoLLM: Sharpening Fine-grained Temporal Grounding in Video Large Language Models	Oct 4, 2024	Dense Video CaptioningSentence	CodeCode Available	2
SkyScript-100M: 1,000,000,000 Pairs of Scripts and Shooting Scripts for Short Drama	Aug 18, 2024	Script GenerationVideo Captioning	CodeCode Available	2
Vript: A Video Is Worth Thousands of Words	Jun 10, 2024	Video CaptioningVideo Understanding	CodeCode Available	2
VTG-LLM: Integrating Timestamp Knowledge into Video LLMs for Enhanced Video Temporal Grounding	May 22, 2024	Dense Video CaptioningHighlight Detection	CodeCode Available	2
Movie101v2: Improved Movie Narration Benchmark	Apr 20, 2024	Video Captioning	CodeCode Available	2
TrafficVLM: A Controllable Visual Language Model for Traffic Video Captioning	Apr 14, 2024	Dense Video CaptioningDescriptive	CodeCode Available	2
Do You Remember? Dense Video Captioning with Cross-Modal Memory Retrieval	Apr 11, 2024	DecoderDense Video Captioning	CodeCode Available	2
OmniVid: A Generative Framework for Universal Video Understanding	Mar 26, 2024	Action RecognitionDecoder	CodeCode Available	2
VTimeLLM: Empower LLM to Grasp Video Moments	Nov 30, 2023	Dense Video CaptioningTemporal Relation Extraction	CodeCode Available	2
VidChapters-7M: Video Chapters at Scale	Sep 25, 2023	Dense Video CaptioningNavigate	CodeCode Available	2
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks	Jun 7, 2023	Cross-Modal RetrievalLanguage Modelling	CodeCode Available	2
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset	May 29, 2023	Audio captioningAudio-Visual Captioning	CodeCode Available	2
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset	Apr 17, 2023	Audio captioningAudio-Video Question Answering (AVQA)	CodeCode Available	2
SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts Commentaries	Apr 10, 2023	Dense Video CaptioningVideo Captioning	CodeCode Available	2
Video ChatCaptioner: Towards Enriched Spatiotemporal Descriptions	Apr 9, 2023	Video Captioning	CodeCode Available	2
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning	Feb 27, 2023	Dense Video CaptioningLanguage Modeling	CodeCode Available	2
Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?	Dec 31, 2022	Data AugmentationRetrieval	CodeCode Available	2
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs	Jun 9, 2022	Image CaptioningImage Classification	CodeCode Available	2
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks	Jul 15, 2025	Video CaptioningVideo Understanding	CodeCode Available	1
VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation	Feb 18, 2025	Text-to-Video GenerationVideo Captioning	CodeCode Available	1
VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning	Jan 12, 2025	Dense Video CaptioningVideo Captioning	CodeCode Available	1
HiCM^2: Hierarchical Compact Memory Modeling for Dense Video Captioning	Dec 19, 2024	Dense Video CaptioningVideo Captioning	CodeCode Available	1
G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o	Dec 18, 2024	Image CaptioningVideo Captioning	CodeCode Available	1
VideoLLM Knows When to Speak: Enhancing Time-Sensitive Video Comprehension with Video-Text Duet Interaction Format	Nov 27, 2024	Dense Video CaptioningGrounded Video Question Answering	CodeCode Available	1
IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning	Sep 26, 2024	Image CaptioningRetrieval	CodeCode Available	1
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark	Aug 5, 2024	Dense Video CaptioningDiversity	CodeCode Available	1
Learning Video Context as Interleaved Multimodal Sequences	Jul 31, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
AlanaVLM: A Multimodal Embodied AI Foundation Model for Egocentric Video Understanding	Jun 19, 2024	Question AnsweringSpatial Reasoning	CodeCode Available	1
Shotluck Holmes: A Family of Efficient Small-Scale Large Language Vision Models For Video Captioning and Summarization	May 31, 2024	SentenceVideo Captioning	CodeCode Available	1
Narrative Action Evaluation with Prompt-Guided Multimodal Interaction	Apr 22, 2024	Action Quality Assessmentmultimodal interaction	CodeCode Available	1
Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis	Apr 12, 2024	Dense Video CaptioningTransfer Learning	CodeCode Available	1
LVCHAT: Facilitating Long Video Comprehension	Feb 19, 2024	Video Captioning	CodeCode Available	1
Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal Data	Jan 16, 2024	Image GenerationText to Image Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified