Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 473 papers

Title	Date	Tasks	Status	Hype
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval	Apr 1, 2021	RetrievalText Retrieval	CodeCode Available	1
A Comprehensive Review of the Video-to-Text Problem	Mar 27, 2021	Question AnsweringRetrieval	CodeCode Available	1
The MSR-Video to Text Dataset with Clean Annotations	Feb 12, 2021	SentenceVideo Captioning	CodeCode Available	1
Semantic Grouping Network for Video Captioning	Feb 1, 2021	Video Captioning	CodeCode Available	1
A Reinforcement Learning Based Encoder-Decoder Framework for Learning Stock Trading Rules	Jan 8, 2021	DecoderDeep Reinforcement Learning	CodeCode Available	1
TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization Tasks	Nov 23, 2020	Action ClassificationAction Localization	CodeCode Available	1
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language	Nov 18, 2020	Dictionary LearningDisentanglement	CodeCode Available	1
Multimodal Pretraining for Dense Video Captioning	Nov 10, 2020	Dense Video CaptioningVideo Captioning	CodeCode Available	1
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning	Nov 1, 2020	Cross-Modal RetrievalRepresentation Learning	CodeCode Available	1
Improved Actor Relation Graph based Group Activity Recognition	Oct 24, 2020	Activity RecognitionGroup Activity Recognition	CodeCode Available	1
Poet: Product-oriented Video Captioner for E-commerce	Aug 16, 2020	Video Captioning	CodeCode Available	1
SODA: Story Oriented Dense Video Captioning Evaluation Framework	Aug 1, 2020	Dense Video CaptioningVideo Captioning	CodeCode Available	1
Learning to Generate Grounded Visual Captions without Localization Supervision	Aug 1, 2020	Image CaptioningLanguage Modelling	CodeCode Available	1
Learning to Discretely Compose Reasoning Module Networks for Video Captioning	Jul 17, 2020	DecoderQuestion Answering	CodeCode Available	1
Comprehensive Information Integration Modeling Framework for Video Titling	Jun 24, 2020	DescriptiveVideo Captioning	CodeCode Available	1
Dense-Captioning Events in Videos: SYSU Submission to ActivityNet Challenge 2020	Jun 21, 2020	Dense CaptioningDense Video Captioning	CodeCode Available	1
Video Moment Localization using Object Evidence and Reverse Captioning	Jun 18, 2020	Language-Based Temporal LocalizationLanguage Modelling	CodeCode Available	1
Syntax-Aware Action Targeting for Video Captioning	Jun 1, 2020	Video Captioning	CodeCode Available	1
A Better Use of Audio-Visual Cues: Dense Video Captioning with Bi-modal Transformer	May 17, 2020	Dense Video CaptioningTemporal Action Proposal Generation	CodeCode Available	1
MART: Memory-Augmented Recurrent Transformer for Coherent Video Paragraph Captioning	May 11, 2020	SentenceVideo Captioning	CodeCode Available	1
A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos	May 2, 2020	Action DetectionForm	CodeCode Available	1
HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training	May 1, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Multi-modal Dense Video Captioning	Mar 17, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning	Mar 11, 2020	Question AnsweringVideo Captioning	CodeCode Available	1
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation	Feb 15, 2020	Action SegmentationDecoder	CodeCode Available	1
Delving Deeper into the Decoder for Video Captioning	Jan 16, 2020	DecoderSentence	CodeCode Available	1
Learning to Generate Grounded Visual Captions without Localization Supervision	Jun 1, 2019	Image CaptioningLanguage Modelling	CodeCode Available	1
Large Scale Holistic Video Understanding	Apr 25, 2019	Action ClassificationAction Recognition	CodeCode Available	1
What and How Well You Performed? A Multitask Learning Approach to Action Quality Assessment	Apr 8, 2019	Action ClassificationAction Quality Assessment	CodeCode Available	1
VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research	Apr 6, 2019	Machine TranslationTranslation	CodeCode Available	1
Frame- and Segment-Level Features and Candidate Pool Evaluation for Video Caption Generation	Aug 17, 2016	Caption GenerationDecoder	CodeCode Available	1
Video captioning with recurrent networks based on frame- and video-level features and visual content classification	Dec 9, 2015	Caption GenerationGeneral Classification	CodeCode Available	1
Show, Tell and Summarize: Dense Video Captioning Using Visual Cue Aided Sentence Summarization	Jun 25, 2025	Dense Video CaptioningDescriptive	—Unverified	0
Dense Video Captioning using Graph-based Sentence Summarization	Jun 25, 2025	Dense Video CaptioningSentence	—Unverified	0
VersaVid-R1: A Versatile Video Understanding and Reasoning Model from Question Answering to Captioning Tasks	Jun 10, 2025	Multiple-choiceOpen-Ended Question Answering	—Unverified	0
ARGUS: Hallucination and Omission Evaluation in Video-LLMs	Jun 9, 2025	DescriptiveForm	—Unverified	0
Temporal Object Captioning for Street Scene Videos from LiDAR Tracks	May 22, 2025	Caption GenerationVideo Captioning	—Unverified	0
FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks	May 19, 2025	Video Captioning	CodeCode Available	0
TimeSoccer: An End-to-End Multimodal Large Language Model for Soccer Commentary Generation	Apr 24, 2025	Caption GenerationDense Video Captioning	—Unverified	0
Describe Anything: Detailed Localized Image and Video Captioning	Apr 22, 2025	SentenceVideo Captioning	—Unverified	0
FocusedAD: Character-centric Movie Audio Description	Apr 16, 2025	Video Captioning	CodeCode Available	0
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning	Mar 31, 2025	Video Captioning	—Unverified	0
Watch and Learn: Leveraging Expert Knowledge and Language for Surgical Video Understanding	Mar 14, 2025	DenoisingDense Video Captioning	—Unverified	0
Get In Video: Add Anything You Want to the Video	Mar 8, 2025	object-detectionObject Detection	—Unverified	0
Fine-Grained Video Captioning through Scene Graph Consolidation	Feb 23, 2025	Caption GenerationImage Captioning	—Unverified	0
LongCaptioning: Unlocking the Power of Long Caption Generation in Large Multimodal Models	Feb 21, 2025	Caption GenerationVideo Captioning	—Unverified	0
Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning	Feb 19, 2025	Knowledge DistillationObject	—Unverified	0
Pretrained Image-Text Models are Secretly Video Captioners	Feb 19, 2025	Image CaptioningVideo Captioning	CodeCode Available	0
MAMS: Model-Agnostic Module Selection Framework for Video Captioning	Jan 30, 2025	Caption GenerationVideo Captioning	—Unverified	0
Classifier-Guided Captioning Across Modalities	Jan 3, 2025	Audio captioningVideo Captioning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified