Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 473 papers

Title	Date	Tasks	Status
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models	Feb 21, 2025	Caption GenerationVideo Captioning	—Unverified
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning	Nov 19, 2021	Dense Video CaptioningDiversity	—Unverified
Bridge Video and Text with Cascade Syntactic Structure	Aug 1, 2018	AttributeObject	—Unverified
An Integrated Approach for Video Captioning and Applications	Jan 23, 2022	Image CaptioningVideo Captioning	—Unverified
Dual-Level Decoupled Transformer for Video Captioning	May 6, 2022	DescriptiveSentence	—Unverified
Boosting Video-Text Retrieval with Explicit High-Level Semantics	Aug 8, 2022	RetrievalText Retrieval	—Unverified
Diverse Video Captioning Through Latent Variable Expansion	Oct 26, 2019	DiversityGenerative Adversarial Network	—Unverified
Boosting Video Representation Learning with Multi-Faceted Integration	Jan 11, 2022	Action RecognitionRepresentation Learning	—Unverified
AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction	Nov 19, 2024	GPUQuestion Answering	—Unverified
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions	Jan 17, 2022	Video CaptioningVisual Dialog	—Unverified
Boosting Video Captioning with Dynamic Loss Network	Jul 25, 2021	image-classificationImage Classification	—Unverified
Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos	Jul 11, 2019	Dense CaptioningDense Video Captioning	—Unverified
Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks	Jun 24, 2024	Question AnsweringText Generation	—Unverified
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement	Apr 3, 2024	Dense Video CaptioningDiversity	—Unverified
Bidirectional Multirate Reconstruction for Temporal Modeling in Videos	Nov 28, 2016	Event DetectionVideo Captioning	—Unverified
Describe Anything: Detailed Localized Image and Video Captioning	Apr 22, 2025	SentenceVideo Captioning	—Unverified
Improving Interpretability of Deep Neural Networks with Semantic Information	Mar 12, 2017	Action RecognitionTemporal Action Localization	—Unverified
Bidirectional Long-Short Term Memory for Video Description	Jun 15, 2016	Language ModelingLanguage Modelling	—Unverified
Beyond Caption To Narrative: Video Captioning With Multiple Sentences	May 18, 2016	Action LocalizationImage Captioning	—Unverified
Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols	Nov 5, 2023	Caption GenerationDense Video Captioning	—Unverified
End-to-End Video Captioning	Apr 4, 2019	Action RecognitionCaption Generation	—Unverified
Image-to-Video Person Re-Identification by Reusing Cross-modal Embeddings	Oct 4, 2018	Image CaptioningImage-To-Video Person Re-Identification	—Unverified
IcoCap: Improving Video Captioning by Compounding Images	Oct 5, 2023	Image CaptioningVideo Captioning	—Unverified
HyperGLM: HyperGraph for Video Scene Graph Generation and Anticipation	Nov 27, 2024	Graph GenerationQuestion Answering	—Unverified
Learning Interactive Real-World Simulators	Oct 9, 2023	Video Captioning	—Unverified
Learning to Compose Topic-Aware Mixture of Experts for Zero-Shot Video Captioning	Nov 7, 2018	Mixture-of-ExpertsVideo Captioning	—Unverified
Less Is More: Picking Informative Frames for Video Captioning	Mar 5, 2018	DecoderDiversity	—Unverified
Best Vision Technologies Submission to ActivityNet Challenge 2018-Task: Dense-Captioning Events in Videos	Jun 25, 2018	Dense CaptioningOptical Flow Estimation	—Unverified
Deep Reinforcement Learning for NLP	Jul 1, 2018	Atari Gamescoreference-resolution	—Unverified
LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision	Apr 15, 2023	Language ModelingLanguage Modelling	—Unverified
HiVLP: Hierarchical Interactive Video-Language Pre-Training	Jan 1, 2023	RetrievalSelf-Supervised Learning	—Unverified
An Attempt towards Interpretable Audio-Visual Video Captioning	Dec 7, 2018	Audio captioningAudio-Visual Video Captioning	—Unverified
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training	Dec 30, 2022	cross-modal alignmentTGIF-Action	—Unverified
An Efficient Keyframes Selection Based Framework for Video Captioning	Dec 1, 2021	Text GenerationVideo Captioning	—Unverified
Rethinking and Improving Natural Language Generation with Layer-Wise Multi-View Decoding	May 16, 2020	Abstractive Text SummarizationDecoder	—Unverified
Hierarchical Recurrent Neural Network for Video Summarization	Apr 28, 2019	Video CaptioningVideo Summarization	—Unverified
Hierarchical Recurrent Neural Encoder for Video Representation with Application to Captioning	Nov 11, 2015	image-classificationImage Classification	—Unverified
Hierarchical Multimodal Transformer to Summarize Videos	Sep 22, 2021	Machine TranslationSupervised Video Summarization	—Unverified
Human Action Sequence Classification	Oct 7, 2019	Action ClassificationAction Localization	—Unverified
Human-centric Behavior Description in Videos: New Benchmark and Model	Oct 4, 2023	Video Captioning	—Unverified
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified
Empowering LLMs with Pseudo-Untrimmed Videos for Audio-Visual Temporal Understanding	Mar 24, 2024	Dense Video CaptioningTemporal Localization	—Unverified
Hierarchical Memory Decoding for Video Captioning	Feb 27, 2020	DecoderVideo Captioning	—Unverified
Hierarchical memory decoder for visual narrating	Sep 1, 2020	DecoderImage Captioning	—Unverified
Imperial College London Submission to VATEX Video Captioning Task	Oct 16, 2019	DecoderVideo Captioning	—Unverified
Implicit and Explicit Commonsense for Multi-sentence Video Captioning	Mar 14, 2023	Imitation LearningSentence	—Unverified
Dense Video Captioning using Graph-based Sentence Summarization	Jun 25, 2025	Dense Video CaptioningSentence	—Unverified
Crowd Video Captioning	Nov 13, 2019	Video Captioning	—Unverified
Hierarchical LSTM with Adjusted Temporal Attention for Video Captioning	Jun 5, 2017	Caption GenerationDecoder	—Unverified
Hierarchical LSTMs with Adaptive Attention for Visual Captioning	Dec 26, 2018	Caption GenerationImage Captioning	—Unverified

Show:10 25 50

← PrevPage 4 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified