Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 473 papers

Title	Date	Tasks	Status
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement	Apr 3, 2024	Dense Video CaptioningDiversity	—Unverified
PolySmart @ TRECVid 2024 Video Captioning (VTT)	Dec 20, 2024	Video Captioning	—Unverified
Describe Anything: Detailed Localized Image and Video Captioning	Apr 22, 2025	SentenceVideo Captioning	—Unverified
End-to-End Video Captioning	Apr 4, 2019	Action RecognitionCaption Generation	—Unverified
Pre-training for Video Captioning Challenge 2020 Summary	Jul 27, 2020	Video Captioning	—Unverified
Procedural Text Generation from an Execution Video	Nov 1, 2017	Object RecognitionText Generation	—Unverified
Progress-Aware Video Frame Captioning	Dec 3, 2024	Image CaptioningVideo Captioning	—Unverified
Dense Video Captioning using Graph-based Sentence Summarization	Jun 25, 2025	Dense Video CaptioningSentence	—Unverified
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment	Jul 5, 2023	Dense Video CaptioningLanguage Modelling	—Unverified
Recent Advances in Video Question Answering: A Review of Datasets and Methods	Jan 15, 2021	Information RetrievalMachine Translation	—Unverified
Recipe Generation from Unsegmented Cooking Videos	Sep 21, 2022	Dense Video CaptioningRecipe Generation	—Unverified
Reconstruct and Represent Video Contents for Captioning via Reinforcement Learning	Jun 3, 2019	Decoderreinforcement-learning	—Unverified
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending	May 22, 2023	Question AnsweringRetrieval	—Unverified
Recurrent Memory Addressing for describing videos	Nov 20, 2016	Video Captioning	—Unverified
Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance	Jul 19, 2024	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
An Efficient Keyframes Selection Based Framework for Video Captioning	Dec 1, 2021	Text GenerationVideo Captioning	—Unverified
ReGen: A good Generative Zero-Shot Video Classifier Should be Rewarded	Jan 1, 2023	Action ClassificationAction Recognition	—Unverified
Reinforced Video Captioning with Entailment Rewards	Aug 7, 2017	reinforcement-learningReinforcement Learning	—Unverified
Relational Reasoning using Prior Knowledge for Visual Captioning	Jun 4, 2019	Image Captioningobject-detection	—Unverified
Dense Video Captioning: A Survey of Techniques, Datasets and Evaluation Protocols	Nov 5, 2023	Caption GenerationDense Video Captioning	—Unverified
Retrieval-Augmented Egocentric Video Captioning	Jan 1, 2024	Representation LearningRetrieval	—Unverified
RETTA: Retrieval-Enhanced Test-Time Adaptation for Zero-Shot Video Captioning	May 11, 2024	Image-text matchingRetrieval	—Unverified
Deep Reinforcement Learning for NLP	Jul 1, 2018	Atari Gamescoreference-resolution	—Unverified
RUC+CMU: System Report for Dense Captioning Events in Videos	Jun 22, 2018	Caption GenerationDense Captioning	—Unverified
SACT: Self-Aware Multi-Space Feature Composition Transformer for Multinomial Attention for Video Captioning	Jun 25, 2020	Dense Video CaptioningVideo Captioning	—Unverified
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions	Jul 24, 2022	Dense CaptioningDense Video Captioning	—Unverified
SBAT: Video Captioning with Sparse Boundary-Aware Transformer	Jul 23, 2020	Machine Translationmultimodal interaction	—Unverified
Scalable and Accurate Self-supervised Multimodal Representation Learning without Aligned Video and Text Data	Apr 4, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
VLM: Task-agnostic Video-Language Model Pre-training for Video Understanding	May 20, 2021	Action SegmentationLanguage Modeling	—Unverified
An Attempt towards Interpretable Audio-Visual Video Captioning	Dec 7, 2018	Audio captioningAudio-Visual Video Captioning	—Unverified
Semantic-Aware Pretraining for Dense Video Captioning	Apr 13, 2022	Dense CaptioningDense Video Captioning	—Unverified
CUPID: Adaptive Curation of Pre-training Data for Video-and-Language Representation Learning	Apr 1, 2021	Question AnsweringRepresentation Learning	—Unverified
Analyzing Zero-Shot Abilities of Vision-Language Models on Video Understanding Tasks	Oct 7, 2023	Action RecognitionMultiple-choice	—Unverified
Semi-Supervised Learning for Video Captioning	Nov 1, 2020	Video Captioning	—Unverified
SEM-POS: Grammatically and Semantically Correct Video Captioning	Mar 26, 2023	POSVideo Captioning	—Unverified
Amortized Context Vector Inference for Sequence-to-Sequence Networks	May 23, 2018	Document SummarizationVariational Inference	—Unverified
Seq2Time: Sequential Knowledge Transfer for Video LLM Temporal Grounding	Nov 25, 2024	Dense Video CaptioningTransfer Learning	—Unverified
Set Prediction Guided by Semantic Concepts for Diverse Video Captioning	Dec 25, 2023	Caption GenerationDiversity	—Unverified
Crowd Video Captioning	Nov 13, 2019	Video Captioning	—Unverified
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations	Sep 30, 2021	Contrastive LearningRetrieval	—Unverified
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Mar 31, 2022	RetrievalVideo Captioning	—Unverified
Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization	Jun 25, 2025	Dense Video CaptioningDescriptive	—Unverified
Aligning Source Visual and Target Language Domains for Unpaired Video Captioning	Nov 22, 2022	TranslationVideo Captioning	—Unverified
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Nov 16, 2021	RetrievalVideo Captioning	—Unverified
SMArT: Training Shallow Memory-aware Transformers for Robotic Explainability	Oct 7, 2019	Text GenerationVideo Captioning	—Unverified
SnapCap: Efficient Snapshot Compressive Video Captioning	Jan 10, 2024	Compressive SensingVideo Captioning	—Unverified
Learning Video Representations using Contrastive Bidirectional Transformer	Jun 13, 2019	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Agent-based Video Trimming	Dec 12, 2024	Highlight DetectionMoment Retrieval	—Unverified
Consensus-based Sequence Training for Video Captioning	Dec 27, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Collaborative Three-Stream Transformers for Video Captioning	Sep 18, 2023	SentenceVideo Captioning	—Unverified

Show:10 25 50

← PrevPage 7 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified