Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 473 papers

Title	Date	Tasks	Status
MAViC: Multimodal Active Learning for Video Captioning	Dec 11, 2022	Active LearningDecoder	—Unverified
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified
Refined Semantic Enhancement towards Frequency Diffusion for Video Captioning	Nov 28, 2022	FADVideo Captioning	CodeCode Available
Aligning Source Visual and Target Language Domains for Unpaired Video Captioning	Nov 22, 2022	TranslationVideo Captioning	—Unverified
Event and Entity Extraction from Generated Video Captions	Nov 5, 2022	Caption GenerationDense Video Captioning	CodeCode Available
Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks	Oct 10, 2022	RetrievalText to Video Retrieval	—Unverified
Recipe Generation from Unsegmented Cooking Videos	Sep 21, 2022	Dense Video CaptioningRecipe Generation	—Unverified
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
StoryDALL-E: Adapting Pretrained Text-to-Image Transformers for Story Continuation	Sep 13, 2022	Image GenerationStory Continuation	CodeCode Available
Diverse Video Captioning by Adaptive Spatio-temporal Attention	Aug 19, 2022	DecoderDiversity	CodeCode Available
Boosting Video-Text Retrieval with Explicit High-Level Semantics	Aug 8, 2022	RetrievalText Retrieval	—Unverified
SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions	Jul 24, 2022	Dense CaptioningDense Video Captioning	—Unverified
Dual-Stream Transformer for Generic Event Boundary Captioning	Jul 7, 2022	Boundary CaptioningVideo Captioning	CodeCode Available
PIC 4th Challenge: Semantic-Assisted Multi-Feature Encoding and Multi-Head Decoding for Dense Video Captioning	Jul 6, 2022	Dense Video CaptioningVideo Captioning	—Unverified
Modality Alignment between Deep Representations for Effective Video-and-Language Learning	Jun 1, 2022	Question AnsweringVideo Captioning	—Unverified
Support-set based Multi-modal Representation Enhancement for Video Captioning	May 19, 2022	Video Captioning	CodeCode Available
Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information	May 7, 2022	Text GenerationVideo Captioning	—Unverified
Dual-Level Decoupled Transformer for Video Captioning	May 6, 2022	DescriptiveSentence	—Unverified
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos	Apr 28, 2022	Action UnderstandingVideo Captioning	CodeCode Available
End-to-end Dense Video Captioning as Sequence Generation	Apr 18, 2022	Dense Video CaptioningDescriptive	—Unverified
Semantic-Aware Pretraining for Dense Video Captioning	Apr 13, 2022	Dense CaptioningDense Video Captioning	—Unverified
Video Captioning: a comparative review of where we are and which could be the route	Apr 12, 2022	Video Captioning	—Unverified
Learning Audio-Video Modalities from Image Captions	Apr 1, 2022	Image CaptioningRetrieval	—Unverified
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Mar 31, 2022	RetrievalVideo Captioning	—Unverified
Global2Local: A Joint-Hierarchical Attention for Video Captioning	Mar 13, 2022	Video Captioning	—Unverified
Exploiting long-term temporal dynamics for video captioning	Feb 22, 2022	Video Captioning	—Unverified
BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment	Jan 25, 2022	Language ModelingLanguage Modelling	CodeCode Available
Generative Adversarial Network Applications in Creating a Meta-Universe	Jan 23, 2022	Generative Adversarial NetworkImage-to-Image Translation	—Unverified
An Integrated Approach for Video Captioning and Applications	Jan 23, 2022	Image CaptioningVideo Captioning	—Unverified
End-to-end Generative Pretraining for Multimodal Video Captioning	Jan 20, 2022	Action ClassificationDecoder	—Unverified
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions	Jan 17, 2022	Video CaptioningVisual Dialog	—Unverified
End-to-end Dense Video Captioning as Sequence Generation	Jan 16, 2022	Dense Video CaptioningDescriptive	—Unverified
Boosting Video Representation Learning with Multi-Faceted Integration	Jan 11, 2022	Action RecognitionRepresentation Learning	—Unverified
Variational Stacked Local Attention Networks for Diverse Video Captioning	Jan 4, 2022	DecoderDiversity	—Unverified
Dense Video Captioning Using Unsupervised Semantic Information	Dec 15, 2021	Dense Video CaptioningVideo Captioning	CodeCode Available
CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising	Dec 14, 2021	Cross-Modal RetrievalDecoder	—Unverified
Syntax Customized Video Captioning by Imitating Exemplar Sentences	Dec 2, 2021	DecoderDiversity	CodeCode Available
Multi-modal Dependency Tree for Video Captioning	Dec 1, 2021	Caption GenerationDependency Parsing	—Unverified
An Efficient Keyframes Selection Based Framework for Video Captioning	Dec 1, 2021	Text GenerationVideo Captioning	—Unverified
CLIP Meets Video Captioning: Concept-Aware Representation Learning Does Matter	Nov 30, 2021	Caption GenerationRepresentation Learning	CodeCode Available
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning	Nov 19, 2021	Dense Video CaptioningDiversity	—Unverified
Fill-in-the-Blank: A Challenging Video Understanding Evaluation Framework	Nov 16, 2021	Multiple-choiceQuestion Answering	—Unverified
CREATE: A Benchmark for Chinese Short Video Retrieval and Title Generation	Nov 16, 2021	RetrievalVideo Captioning	—Unverified
E-MMAD: Multimodal Advertising Caption Generation Based on Structured Information	Nov 16, 2021	Caption Generationvalid	—Unverified
Visual-aware Attention Dual-stream Decoder for Video Captioning	Oct 16, 2021	DecoderVideo Captioning	—Unverified
CLIP4Caption: CLIP for Video Caption	Oct 13, 2021	DecoderSentence	—Unverified
CrossCLR: Cross-modal Contrastive Learning For Multi-modal Video Representations	Sep 30, 2021	Contrastive LearningRetrieval	—Unverified
Graph Similarities and Dual Approach for Sequential Text-to-Image Retrieval	Sep 29, 2021	Graph EmbeddingImage Retrieval	—Unverified
OSVidCap: A Framework for the Simultaneous Recognition and Description of Concurrent Actions in Videos in an Open-Set Scenario	Sep 29, 2021	DecoderOpen Set Video Captioning	CodeCode Available
Hierarchical Multimodal Transformer to Summarize Videos	Sep 22, 2021	Machine TranslationSupervised Video Summarization	—Unverified

Show:10 25 50

← PrevPage 6 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified