Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 473 papers

Title	Date	Tasks	Status	Score
Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning	Mar 31, 2018	DecoderDense Video Captioning	CodeCode Available	5
Towards Automatic Learning of Procedures from Web Instructional Videos	Mar 28, 2017	Dense Video CaptioningProcedure Learning	CodeCode Available	5
Top-down Visual Saliency Guided by Captions	Dec 21, 2016	DecoderSentence	CodeCode Available	5
Delving Deeper into Convolutional Networks for Learning Video Representations	Nov 19, 2015	Action RecognitionDecoder	CodeCode Available	5
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available	5
Support-set based Multi-modal Representation Enhancement for Video Captioning	May 19, 2022	Video Captioning	CodeCode Available	5
Deep Compositional Captioning: Describing Novel Object Categories without Paired Training Data	Nov 17, 2015	Image CaptioningNovel Concepts	CodeCode Available	5
BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment	Jan 25, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning	May 3, 2019	DecoderSentence	CodeCode Available	5
SoccerNet 2024 Challenges Results	Sep 16, 2024	Action SpottingDense Video Captioning	CodeCode Available	5
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation	Sep 13, 2022	Image GenerationStory Continuation	CodeCode Available	5
Cross-Modal Graph with Meta Concepts for Video Captioning	Aug 14, 2021	object-detectionObject Detection	CodeCode Available	5
Sketch, Ground, and Refine: Top-Down Dense Video Captioning	Jun 19, 2021	Dense Video CaptioningSentence	CodeCode Available	5
Streamlined Dense Video Captioning	Apr 8, 2019	Dense Video CaptioningReinforcement Learning	CodeCode Available	5
Temporal Tessellation: A Unified Approach for Video Analysis	Dec 21, 2016	Action DetectionVideo Captioning	CodeCode Available	5
Cross-Modal and Hierarchical Modeling of Video and Text	Oct 16, 2018	Action RecognitionRetrieval	CodeCode Available	5
Video captioning with stacked attention and semantic hard pull	Sep 15, 2020	DecoderVideo Captioning	CodeCode Available	5
Reconstruction Network for Video Captioning	Mar 30, 2018	DecoderSentence	CodeCode Available	5
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning	Nov 28, 2022	FADVideo Captioning	CodeCode Available	5
ActBERT: Learning Global-Local Video-Text Representations	Nov 14, 2020	Action SegmentationQuestion Answering	CodeCode Available	5
Pseudo-labeling with Keyword Refining for Few-Supervised Video Captioning	Nov 6, 2024	Video Captioning	CodeCode Available	5
Event and Entity Extraction from Generated Video Captions	Nov 5, 2022	Caption GenerationDense Video Captioning	CodeCode Available	5
Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network	Aug 27, 2019	Caption GenerationDecoder	CodeCode Available	5
Screencast Tutorial Video Understanding	Jun 1, 2020	object-detectionObject Detection	CodeCode Available	5
Pretrained Image-Text Models are Secretly Video Captioners	Feb 19, 2025	Image CaptioningVideo Captioning	CodeCode Available	5
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention	Sep 7, 2021	Sensor FusionVideo Captioning	CodeCode Available	5
OmniNet: A unified architecture for multi-modal multi-task learning	Jul 17, 2019	Image CaptioningMulti-Task Learning	CodeCode Available	5
Non-Autoregressive Coarse-to-Fine Video Captioning	Nov 27, 2019	SentenceVideo Captioning	CodeCode Available	5
Continual and Multi-Task Architecture Search	Jun 12, 2019	Continual LearningGeneral Classification	CodeCode Available	5
Contextual Explainable Video Representation: Human Perception-based Understanding	Dec 12, 2022	Action DetectionAction Recognition	CodeCode Available	5
M-VAD Names: a Dataset for Video Captioning with Naming	Mar 4, 2019	TAGVideo Captioning	CodeCode Available	5
Oracle performance for visual captioning	Nov 14, 2015	Image CaptioningLanguage Modeling	CodeCode Available	5
FocusedAD: Character-centric Movie Audio Description	Apr 16, 2025	Video Captioning	CodeCode Available	5
FLASH: Latent-Aware Semi-Autoregressive Speculative Decoding for Multimodal Tasks	May 19, 2025	Video Captioning	CodeCode Available	5
Deep Learning for Video Classification and Captioning	Sep 22, 2016	ClassificationDeep Learning	CodeCode Available	5
ContCap: A scalable framework for continual image captioning	Sep 19, 2019	Continual LearningImage Captioning	CodeCode Available	5
Multi-attention Networks for Temporal Localization of Video-level Labels	Nov 15, 2019	Action RecognitionTemporal Action Localization	CodeCode Available	5
A Survey of Video Datasets for Grounded Event Understanding	Jun 14, 2024	Common Sense ReasoningEvent Extraction	CodeCode Available	5
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian	Jun 20, 2023	Cross-Lingual TransferRetrieval	CodeCode Available	5
Syntax Customized Video Captioning by Imitating Exemplar Sentences	Dec 2, 2021	DecoderDiversity	CodeCode Available	5
MTLE: A Multitask Learning Encoder of Visual Feature Representations for Video and Movie Description	Sep 19, 2018	DecoderVideo Captioning	CodeCode Available	5
OSVidCap: A Framework for the Simultaneous Recognition and Description of Concurrent Actions in Videos in an Open-Set Scenario	Sep 29, 2021	DecoderOpen Set Video Captioning	CodeCode Available	5
FIBER: Fill-in-the-Blanks as a Challenging Video Understanding Evaluation Framework	Apr 9, 2021	Language ModellingMultiple-choice	CodeCode Available	5
A Semantics-Assisted Video Captioning Model Trained with Scheduled Sampling	Aug 31, 2019	SentenceVideo Captioning	CodeCode Available	5
METEOR Guided Divergence for Video Captioning	Dec 20, 2022	Hierarchical Reinforcement LearningScene Understanding	CodeCode Available	5
Membership Inference Attacks on Sequence-to-Sequence Models: Is My Data In Your Machine Translation System?	Apr 11, 2019	Machine TranslationTranslation	CodeCode Available	5
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks	Mar 29, 2023	Cross-Modal RetrievalDecoder	CodeCode Available	5
CLIP Meets Video Captioning: Concept-Aware Representation Learning Does Matter	Nov 30, 2021	Caption GenerationRepresentation Learning	CodeCode Available	5
Meaning guided video captioning	Dec 12, 2019	Decoderobject-detection	CodeCode Available	5
Live Video Captioning	Jun 20, 2024	Dense Video CaptioningLive Video Captioning	CodeCode Available	5

Show:10 25 50

← PrevPage 4 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified