Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 473 papers

Title	Date	Tasks	Status
Motion Guided Region Message Passing for Video Captioning	Jan 1, 2021	DecoderVideo Captioning	—Unverified
Move Forward and Tell: A Progressive Generator of Video Descriptions	Jul 26, 2018	DescriptiveSentence	—Unverified
Evaluation of Automatic Video Captioning Using Direct Assessment	Oct 29, 2017	Caption GenerationMachine Translation	—Unverified
Enhancing Multimodal LLM for Detailed and Accurate Video Captioning using Multi-Round Preference Optimization	Oct 9, 2024	Audio captioningLarge Language Model	—Unverified
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified
A Review of Deep Learning for Video Captioning	Apr 22, 2023	Deep LearningDense Video Captioning	—Unverified
MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision and Language Research in Turkish	Dec 13, 2020	Machine TranslationMultimodal Machine Translation	—Unverified
A Restricted Visual Turing Test for Deep Scene and Event Understanding	Dec 6, 2015	Question AnsweringVideo Captioning	—Unverified
End-to-end Dense Video Captioning as Sequence Generation	Apr 18, 2022	Dense Video CaptioningDescriptive	—Unverified
Activitynet 2019 Task 3: Exploring Contexts for Dense Captioning Events in Videos	Jul 11, 2019	Dense CaptioningDense Video Captioning	—Unverified
End-to-end Dense Video Captioning as Sequence Generation	Jan 16, 2022	Dense Video CaptioningDescriptive	—Unverified
End-to-end Concept Word Detection for Video Captioning, Retrieval, and Question Answering	Oct 10, 2016	Language ModelingLanguage Modelling	—Unverified
Multi-modal Dependency Tree for Video Captioning	Dec 1, 2021	Caption GenerationDependency Parsing	—Unverified
Multi-Modal interpretable automatic video captioning	Nov 11, 2024	Decision MakingVideo Captioning	—Unverified
Multimodal Machine Learning: Integrating Language, Vision and Speech	Jul 1, 2017	Audio-Visual Speech RecognitionBIG-bench Machine Learning	—Unverified
Multimodal Machine Translation through Visuals and Speech	Nov 28, 2019	Image CaptioningMachine Translation	—Unverified
Multimodal Memory Modelling for Video Captioning	Nov 17, 2016	DecoderSentence	—Unverified
Encoder-Decoder Based Long Short-Term Memory (LSTM) Model for Video Captioning	Oct 2, 2023	DecoderSentence	—Unverified
Multimodal Semantic Attention Network for Video Captioning	May 8, 2019	AttributeDecoder	—Unverified
Multi-Task Video Captioning with Video and Entailment Generation	Apr 24, 2017	DecoderMulti-Task Learning	—Unverified
Vatex Video Captioning Challenge 2020: Multi-View Features and Hybrid Reward Strategies for Video Captioning	Oct 17, 2019	Video Captioning	—Unverified
MUTT: Metric Unit TesTing for Language Generation Tasks	Aug 1, 2016	Image CaptioningMachine Translation	—Unverified
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified
Empirical Autopsy of Deep Video Captioning Frameworks	Nov 21, 2019	DecoderLanguage Modelling	—Unverified
NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative	Jun 10, 2024	Language ModellingLarge Language Model	—Unverified
Nepali Video Captioning using CNN-RNN Architecture	Nov 5, 2023	Video Captioning	—Unverified
E-MMAD: Multimodal Advertising Caption Generation Based on Structured Information	Nov 16, 2021	Caption Generationvalid	—Unverified
NITS-VC System for VATEX Video Captioning Challenge 2020	Jun 7, 2020	DecoderMachine Translation	—Unverified
NMT-Keras: a Very Flexible Toolkit with a Focus on Interactive NMT and Online Learning	Jul 9, 2018	General ClassificationMachine Translation	—Unverified
A Recipe for Scaling up Text-to-Video Generation with Text-free Videos	Dec 25, 2023	Image GenerationText to Image Generation	—Unverified
Normalized and Geometry-Aware Self-Attention Network for Image Captioning	Mar 19, 2020	Image CaptioningMachine Translation	—Unverified
Not All Words are Equal: Video-specific Information Loss for Video Captioning	Jan 1, 2019	AllVideo Captioning	—Unverified
O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning	Aug 5, 2021	AttributeCaption Generation	—Unverified
Object-aware Aggregation with Bidirectional Temporal Graph for Video Captioning	Jun 11, 2019	ObjectVideo Captioning	—Unverified
OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement	Mar 8, 2020	ObjectSentence	—Unverified
Object Relational Graph with Teacher-Recommended Learning for Video Captioning	Feb 26, 2020	Language ModelingLanguage Modelling	—Unverified
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning	Nov 19, 2021	Dense Video CaptioningDiversity	—Unverified
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified
Dual-Level Decoupled Transformer for Video Captioning	May 6, 2022	DescriptiveSentence	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
On Flow Profile Image for Video Representation	May 12, 2019	Activity RecognitionOptical Flow Estimation	—Unverified
On Scaling Up a Multilingual Vision and Language Model	Jan 1, 2024	document understandingIn-Context Learning	—Unverified
Open-book Video Captioning with Retrieve-Copy-Generate Network	Mar 9, 2021	DecoderRetrieval	—Unverified
Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers	Aug 4, 2021	Video Captioning	—Unverified
An Integrated Approach for Video Captioning and Applications	Jan 23, 2022	Image CaptioningVideo Captioning	—Unverified
Visual-aware Attention Dual-stream Decoder for Video Captioning	Oct 16, 2021	DecoderVideo Captioning	—Unverified
Diverse Video Captioning Through Latent Variable Expansion	Oct 26, 2019	DiversityGenerative Adversarial Network	—Unverified
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions	Jan 17, 2022	Video CaptioningVisual Dialog	—Unverified
Directed Domain Fine-Tuning: Tailoring Separate Modalities for Specific Training Tasks	Jun 24, 2024	Question AnsweringText Generation	—Unverified
PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning	Jul 6, 2022	Dense Video CaptioningVideo Captioning	—Unverified

Show:10 25 50

← PrevPage 6 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified