Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 473 papers

Title	Date	Tasks	Status	Hype
Recipe Generation from Unsegmented Cooking Videos	Sep 21, 2022	Dense Video CaptioningRecipe Generation	—Unverified	0
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified	0
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation	Sep 13, 2022	Image GenerationStory Continuation	CodeCode Available	0
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling	Sep 4, 2022	Fill MaskOptical Flow Estimation	CodeCode Available	1
Partially Relevant Video Retrieval	Aug 26, 2022	Moment RetrievalMultiple Instance Learning	CodeCode Available	1
Diverse Video Captioning by Adaptive Spatio-temporal Attention	Aug 19, 2022	DecoderDiversity	CodeCode Available	0
Boosting Video-Text Retrieval with Explicit High-Level Semantics	Aug 8, 2022	RetrievalText Retrieval	—Unverified	0
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions	Jul 24, 2022	Dense CaptioningDense Video Captioning	—Unverified	0
Zero-Shot Video Captioning with Evolving Pseudo-Tokens	Jul 22, 2022	Image CaptioningImage-text matching	CodeCode Available	1
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training	Jul 18, 2022	Dense Video CaptioningEvent Detection	CodeCode Available	1
Dual-Stream Transformer for Generic Event Boundary Captioning	Jul 7, 2022	Boundary CaptioningVideo Captioning	CodeCode Available	0
PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning	Jul 6, 2022	Dense Video CaptioningVideo Captioning	—Unverified	0
Rethinking Surgical Captioning: End-to-End Window-Based MLP Transformer Using Patches	Jun 30, 2022	Caption GenerationVideo Captioning	CodeCode Available	1
VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning	Jun 26, 2022	Contrastive LearningDiversity	CodeCode Available	1
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling	Jun 14, 2022	DecoderLanguage Modeling	CodeCode Available	1
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs	Jun 9, 2022	Image CaptioningImage Classification	CodeCode Available	2
Modality Alignment between Deep Representations for Effective Video-and-Language Learning	Jun 1, 2022	Question AnsweringVideo Captioning	—Unverified	0
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners	May 22, 2022	AttributeAutomatic Speech Recognition	CodeCode Available	1
GL-RG: Global-Local Representation Granularity for Video Captioning	May 22, 2022	Caption GenerationDescriptive	CodeCode Available	1
Support-set based Multi-modal Representation Enhancement for Video Captioning	May 19, 2022	Video Captioning	CodeCode Available	0
Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information	May 7, 2022	Text GenerationVideo Captioning	—Unverified	0
Dual-Level Decoupled Transformer for Video Captioning	May 6, 2022	DescriptiveSentence	—Unverified	0
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos	Apr 28, 2022	Action UnderstandingVideo Captioning	CodeCode Available	0
End-to-end Dense Video Captioning as Sequence Generation	Apr 18, 2022	Dense Video CaptioningDescriptive	—Unverified	0
MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration	Apr 17, 2022	NavigateRetrieval	CodeCode Available	1
Semantic-Aware Pretraining for Dense Video Captioning	Apr 13, 2022	Dense CaptioningDense Video Captioning	—Unverified	0
Video Captioning: a comparative review of where we are and which could be the route	Apr 12, 2022	Video Captioning	—Unverified	0
Learning Audio-Video Modalities from Image Captions	Apr 1, 2022	Image CaptioningRetrieval	—Unverified	0
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Mar 31, 2022	RetrievalVideo Captioning	—Unverified	0
Global2Local: A Joint-Hierarchical Attention for Video Captioning	Mar 13, 2022	Video Captioning	—Unverified	0
Exploiting long-term temporal dynamics for video captioning	Feb 22, 2022	Video Captioning	—Unverified	0
BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment	Jan 25, 2022	Language ModelingLanguage Modelling	CodeCode Available	0
An Integrated Approach for Video Captioning and Applications	Jan 23, 2022	Image CaptioningVideo Captioning	—Unverified	0
Generative Adversarial Network Applications in Creating a Meta-Universe	Jan 23, 2022	Generative Adversarial NetworkImage-to-Image Translation	—Unverified	0
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified	0
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions	Jan 17, 2022	Video CaptioningVisual Dialog	—Unverified	0
End-to-end Dense Video Captioning as Sequence Generation	Jan 16, 2022	Dense Video CaptioningDescriptive	—Unverified	0
Boosting Video Representation Learning with Multi-Faceted Integration	Jan 11, 2022	Action RecognitionRepresentation Learning	—Unverified	0
Variational Stacked Local Attention Networks for Diverse Video Captioning	Jan 4, 2022	DecoderDiversity	—Unverified	0
Tell me what you see: A zero-shot action recognition method based on natural language descriptions	Dec 18, 2021	Action RecognitionDescriptive	CodeCode Available	1
Dense Video Captioning Using Unsupervised Semantic Information	Dec 15, 2021	Dense Video CaptioningVideo Captioning	CodeCode Available	0
CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising	Dec 14, 2021	Cross-Modal RetrievalDecoder	—Unverified	0
Syntax Customized Video Captioning by Imitating Exemplar Sentences	Dec 2, 2021	DecoderDiversity	CodeCode Available	0
Controllable Video Captioning with an Exemplar Sentence	Dec 2, 2021	Caption GenerationDecoder	CodeCode Available	1
An Efficient Keyframes Selection Based Framework for Video Captioning	Dec 1, 2021	Text GenerationVideo Captioning	—Unverified	0
Multi-modal Dependency Tree for Video Captioning	Dec 1, 2021	Caption GenerationDependency Parsing	—Unverified	0
CLIP Meets Video Captioning: Concept-Aware Representation Learning Does Matter	Nov 30, 2021	Caption GenerationRepresentation Learning	CodeCode Available	0
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning	Nov 25, 2021	Caption GenerationQuestion Answering	CodeCode Available	1
Hierarchical Modular Network for Video Captioning	Nov 24, 2021	Representation LearningSentence	CodeCode Available	1

Show:10 25 50

← PrevPage 5 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified