Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 473 papers

Title	Date	Tasks	Status	Hype	Score
IFCap: Image-like Retrieval and Frequency-based Entity Filtering for Zero-shot Captioning	Sep 26, 2024	Image CaptioningRetrieval	CodeCode Available	1	5
VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning	Nov 28, 2022	DiversitySentence	CodeCode Available	1	5
Poet: Product-oriented Video Captioner for E-commerce	Aug 16, 2020	Video Captioning	CodeCode Available	1	5
Discriminative Latent Semantic Graph for Video Captioning	Aug 8, 2021	DecoderObject	CodeCode Available	1	5
RTQ: Rethinking Video-language Understanding Based on Image-text Model	Dec 1, 2023	Video CaptioningVideo Question Answering	CodeCode Available	1	5
Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation	Mar 21, 2023	Contrastive LearningImage Captioning	CodeCode Available	1	5
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale	Oct 7, 2023	Automatic Speech RecognitionVideo Captioning	CodeCode Available	1	5
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks	Nov 23, 2020	Action ClassificationAction Localization	CodeCode Available	1	5
Large Scale Holistic Video Understanding	Apr 25, 2019	Action ClassificationAction Recognition	CodeCode Available	1	5
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation	Mar 11, 2023	Image CaptioningImage to text	CodeCode Available	1	5
HiCM^2: Hierarchical Compact Memory Modeling for Dense Video Captioning	Dec 19, 2024	Dense Video CaptioningVideo Captioning	CodeCode Available	1	5
Semantic Grouping Network for Video Captioning	Feb 1, 2021	Video Captioning	CodeCode Available	1	5
The MSR-Video to Text Dataset with Clean Annotations	Feb 12, 2021	SentenceVideo Captioning	CodeCode Available	1	5
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners	May 22, 2022	AttributeAutomatic Speech Recognition	CodeCode Available	1	5
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark	Aug 5, 2024	Dense Video CaptioningDiversity	CodeCode Available	1	5
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching	Nov 17, 2021	Language ModellingVideo Captioning	CodeCode Available	1	5
Improving Generation and Evaluation of Visual Stories via Semantic Consistency	May 20, 2021	Image GenerationStory Visualization	CodeCode Available	1	5
UGC-VideoCaptioner: An Omni UGC Video Detail Caption Model and New Benchmarks	Jul 15, 2025	Video CaptioningVideo Understanding	CodeCode Available	1	5
GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation	Mar 26, 2023	Video Captioning	CodeCode Available	1	5
Syntax-Aware Action Targeting for Video Captioning	Jun 1, 2020	Video Captioning	CodeCode Available	1	5
Frame- and Segment-Level Features and Candidate Pool Evaluation for Video Caption Generation	Aug 17, 2016	Caption GenerationDecoder	CodeCode Available	1	5
A Reinforcement Learning Based Encoder-Decoder Framework for Learning Stock Trading Rules	Jan 8, 2021	DecoderDeep Reinforcement Learning	CodeCode Available	1	5
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1	5
Hierarchical Modular Network for Video Captioning	Nov 24, 2021	Representation LearningSentence	CodeCode Available	1	5
Accurate and Fast Compressed Video Captioning	Sep 22, 2023	Video Captioning	CodeCode Available	1	5
Enhancing Traffic Safety with Parallel Dense Video Captioning for End-to-End Event Analysis	Apr 12, 2024	Dense Video CaptioningTransfer Learning	CodeCode Available	1	5
G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o	Dec 18, 2024	Image CaptioningVideo Captioning	CodeCode Available	1	5
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language	Nov 18, 2020	Dictionary LearningDisentanglement	CodeCode Available	1	5
Tell me what you see: A zero-shot action recognition method based on natural language descriptions	Dec 18, 2021	Action RecognitionDescriptive	CodeCode Available	1	5
From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping	Apr 26, 2023	DecoderImage Captioning	CodeCode Available	1	5
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training	Jul 18, 2022	Dense Video CaptioningEvent Detection	CodeCode Available	1	5
VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning	Jun 26, 2022	Contrastive LearningDiversity	CodeCode Available	1	5
End-to-End Video Captioning with Multitask Reinforcement Learning	Mar 21, 2018	GPUreinforcement-learning	CodeCode Available	0	5
SoccerNet 2024 Challenges Results	Sep 16, 2024	Action SpottingDense Video Captioning	CodeCode Available	0	5
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation	Sep 13, 2022	Image GenerationStory Continuation	CodeCode Available	0	5
End-to-End Dense Video Captioning with Masked Transformer	Apr 3, 2018	DecoderDense Video Captioning	CodeCode Available	0	5
Sketch, Ground, and Refine: Top-Down Dense Video Captioning	Jun 19, 2021	Dense Video CaptioningSentence	CodeCode Available	0	5
Streamlined Dense Video Captioning	Apr 8, 2019	Dense Video CaptioningReinforcement Learning	CodeCode Available	0	5
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention	Sep 7, 2021	Sensor FusionVideo Captioning	CodeCode Available	0	5
Event and Entity Extraction from Generated Video Captions	Nov 5, 2022	Caption GenerationDense Video Captioning	CodeCode Available	0	5
Effectively Leveraging CLIP for Generating Situational Summaries of Images and Videos	Jul 30, 2024	Semantic Role LabelingVideo Captioning	CodeCode Available	0	5
Video captioning with stacked attention and semantic hard pull	Sep 15, 2020	DecoderVideo Captioning	CodeCode Available	0	5
Edit As You Wish: Video Caption Editing with Multi-grained User Control	May 15, 2023	AttributePosition	CodeCode Available	0	5
ECO: Efficient Convolutional Network for Online Video Understanding	Apr 24, 2018	Action ClassificationAction Recognition	CodeCode Available	0	5
Support-set based Multi-modal Representation Enhancement for Video Captioning	May 19, 2022	Video Captioning	CodeCode Available	0	5
Reconstruction Network for Video Captioning	Mar 30, 2018	DecoderSentence	CodeCode Available	0	5
Dual-Stream Transformer for Generic Event Boundary Captioning	Jul 7, 2022	Boundary CaptioningVideo Captioning	CodeCode Available	0	5
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning	Nov 28, 2022	FADVideo Captioning	CodeCode Available	0	5
Accommodating Audio Modality in CLIP for Multimodal Processing	Mar 12, 2023	AudioCapsContrastive Learning	CodeCode Available	0	5
Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning	Nov 6, 2024	Video Captioning	CodeCode Available	0	5

Show:10 25 50

← PrevPage 3 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified