Video Captioning

Video Captioning is a task of automatic captioning a video by understanding the action and event in the video which can help in the retrieval of the video efficiently through text.

Source: NITS-VC System for VATEX Video Captioning Challenge 2020

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 473 papers

Title	Date	Tasks	Status	Hype
Shot2Story20K: A New Benchmark for Comprehensive Understanding of Multi-shot Videos	Dec 16, 2023	Video Captioningvideo narration captioning	CodeCode Available	1
RTQ: Rethinking Video-language Understanding Based on Image-text Model	Dec 1, 2023	Video CaptioningVideo Question Answering	CodeCode Available	1
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale	Oct 7, 2023	Automatic Speech RecognitionVideo Captioning	CodeCode Available	1
Accurate and Fast Compressed Video Captioning	Sep 22, 2023	Video Captioning	CodeCode Available	1
SoccerNet 2023 Challenges Results	Sep 12, 2023	Action SpottingCamera Calibration	CodeCode Available	1
MultiCapCLIP: Auto-Encoding Prompts for Zero-Shot Multilingual Visual Captioning	Aug 25, 2023	Image CaptioningVideo Captioning	CodeCode Available	1
VL-PET: Vision-and-Language Parameter-Efficient Tuning via Granularity Control	Aug 18, 2023	Image CaptioningText Generation	CodeCode Available	1
Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval	Aug 15, 2023	RetrievalVideo Captioning	CodeCode Available	1
OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation	Aug 8, 2023	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	1
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures	Jul 27, 2023	Automatic Speech RecognitionContrastive Learning	CodeCode Available	1
LLMVA-GEBC: Large Language Model with Video Adapter for Generic Event Boundary Captioning	Jun 17, 2023	Boundary CaptioningLanguage Modeling	CodeCode Available	1
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model	Jun 15, 2023	Formmodel	CodeCode Available	1
PaLI-X: On Scaling up a Multilingual Vision and Language Model	May 29, 2023	Chart Question Answeringdocument understanding	CodeCode Available	1
Movie101: A New Movie Understanding Benchmark	May 20, 2023	Video Captioning	CodeCode Available	1
From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping	Apr 26, 2023	DecoderImage Captioning	CodeCode Available	1
Hierarchical Video-Moment Retrieval and Step-Captioning	Mar 29, 2023	Information RetrievalMoment Retrieval	CodeCode Available	1
Fine-grained Audible Video Description	Mar 27, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation	Mar 26, 2023	Video Captioning	CodeCode Available	1
MELTR: Meta Loss Transformer for Learning to Fine-tune Video Foundation Models	Mar 23, 2023	Auxiliary LearningMultimodal Sentiment Analysis	CodeCode Available	1
Positive-Augmented Contrastive Learning for Image and Video Captioning Evaluation	Mar 21, 2023	Contrastive LearningImage Captioning	CodeCode Available	1
Action knowledge for video captioning with graph neural networks	Mar 16, 2023	Action RecognitionGraph Neural Network	CodeCode Available	1
ZeroNLG: Aligning and Autoencoding Domains for Zero-Shot Multimodal and Multilingual Natural Language Generation	Mar 11, 2023	Image CaptioningImage to text	CodeCode Available	1
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos	Mar 11, 2023	Dense Video CaptioningNatural Language Moment Retrieval	CodeCode Available	1
VLTinT: Visual-Linguistic Transformer-in-Transformer for Coherent Video Paragraph Captioning	Nov 28, 2022	DiversitySentence	CodeCode Available	1
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations	Nov 21, 2022	Contrastive LearningRepresentation Learning	CodeCode Available	1
Visual Commonsense-aware Representation Network for Video Captioning	Nov 17, 2022	Caption GenerationQuestion Answering	CodeCode Available	1
Why is Winoground Hard? Investigating Failures in Visuolinguistic Compositionality	Nov 1, 2022	Data AugmentationImage Retrieval	CodeCode Available	1
Thinking Hallucination for Video Captioning	Sep 28, 2022	HallucinationVideo Captioning	CodeCode Available	1
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling	Sep 4, 2022	Fill MaskOptical Flow Estimation	CodeCode Available	1
Partially Relevant Video Retrieval	Aug 26, 2022	Moment RetrievalMultiple Instance Learning	CodeCode Available	1
Zero-Shot Video Captioning with Evolving Pseudo-Tokens	Jul 22, 2022	Image CaptioningImage-text matching	CodeCode Available	1
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training	Jul 18, 2022	Dense Video CaptioningEvent Detection	CodeCode Available	1
Rethinking Surgical Captioning: End-to-End Window-Based MLP Transformer Using Patches	Jun 30, 2022	Caption GenerationVideo Captioning	CodeCode Available	1
VLCap: Vision-Language with Contrastive Learning for Coherent Video Paragraph Captioning	Jun 26, 2022	Contrastive LearningDiversity	CodeCode Available	1
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling	Jun 14, 2022	DecoderLanguage Modeling	CodeCode Available	1
GL-RG: Global-Local Representation Granularity for Video Captioning	May 22, 2022	Caption GenerationDescriptive	CodeCode Available	1
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners	May 22, 2022	AttributeAutomatic Speech Recognition	CodeCode Available	1
MUGEN: A Playground for Video-Audio-Text Multimodal Understanding and GENeration	Apr 17, 2022	NavigateRetrieval	CodeCode Available	1
Tell me what you see: A zero-shot action recognition method based on natural language descriptions	Dec 18, 2021	Action RecognitionDescriptive	CodeCode Available	1
Controllable Video Captioning with an Exemplar Sentence	Dec 2, 2021	Caption GenerationDecoder	CodeCode Available	1
SwinBERT: End-to-End Transformers with Sparse Attention for Video Captioning	Nov 25, 2021	Caption GenerationQuestion Answering	CodeCode Available	1
Hierarchical Modular Network for Video Captioning	Nov 24, 2021	Representation LearningSentence	CodeCode Available	1
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching	Nov 17, 2021	Language ModellingVideo Captioning	CodeCode Available	1
Co-segmentation Inspired Attention Module for Video-based Computer Vision Tasks	Nov 14, 2021	Action ClassificationObject	CodeCode Available	1
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics	Aug 18, 2021	Cross-Modal RetrievalDecoder	CodeCode Available	1
End-to-End Dense Video Captioning with Parallel Decoding	Aug 17, 2021	Caption GenerationDense Video Captioning	CodeCode Available	1
Discriminative Latent Semantic Graph for Video Captioning	Aug 8, 2021	DecoderObject	CodeCode Available	1
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation	Jun 8, 2021	Multi-Task LearningQuestion Answering	CodeCode Available	1
DeCEMBERT: Learning from Noisy Instructional Videos via Dense Captions and Entropy Minimization	Jun 1, 2021	Question AnsweringRetrieval	CodeCode Available	1
Improving Generation and Evaluation of Visual Stories via Semantic Consistency	May 20, 2021	Image GenerationStory Visualization	CodeCode Available	1

Show:10 25 50

← PrevPage 2 of 10Next →

All datasets MSR-VTT MSVD YouCook2 VATEX ActivityNet Captions MSRVTT-CTN MSVD-CTN Hindi MSR-VTT TVC ChinaOpen-1k MSVD-Indonesian Shot2Story20K

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	mPLUG-2	CIDEr	80	—	Unverified
2	VAST	CIDEr	78	—	Unverified
3	GIT2	CIDEr	75.9	—	Unverified
4	VLAB	CIDEr	74.9	—	Unverified
5	COSA	CIDEr	74.7	—	Unverified
6	VALOR	CIDEr	74	—	Unverified
7	MaMMUT (ours)	CIDEr	73.6	—	Unverified
8	VideoCoCa	CIDEr	73.2	—	Unverified
9	RTQ	CIDEr	69.3	—	Unverified
10	HowToCaption	CIDEr	65.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MaMMUT	CIDEr	195.6	—	Unverified
2	VLAB	CIDEr	179.8	—	Unverified
3	COSA	CIDEr	178.5	—	Unverified
4	VALOR	CIDEr	178.5	—	Unverified
5	mPLUG-2	CIDEr	165.8	—	Unverified
6	HowToCaption	CIDEr	154.2	—	Unverified
7	HiTeA	CIDEr	146.9	—	Unverified
8	Vid2Seq	CIDEr	146.2	—	Unverified
9	VIOLETv2	CIDEr	139.2	—	Unverified
10	RTQ	CIDEr	123.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	18.2	—	Unverified
2	UniVL + MELTR	BLEU-4	17.92	—	Unverified
3	UniVL	BLEU-4	17.35	—	Unverified
4	VideoCoCa	BLEU-4	14.2	—	Unverified
5	VLM	BLEU-4	12.27	—	Unverified
6	E2vidD6-MASSvid-BiD	BLEU-4	12.04	—	Unverified
7	TextKG	BLEU-4	11.7	—	Unverified
8	COOT	BLEU-4	11.3	—	Unverified
9	COSA	BLEU-4	10.1	—	Unverified
10	HowToCaption	BLEU-4	8.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	BLEU-4	45.6	—	Unverified
2	VAST	BLEU-4	45	—	Unverified
3	COSA	BLEU-4	43.7	—	Unverified
4	VideoCoCa	BLEU-4	39.7	—	Unverified
5	IcoCap (ViT-B/16)	BLEU-4	37.4	—	Unverified
6	IcoCap (ViT-B/32)	BLEU-4	36.9	—	Unverified
7	VASTA (Kinetics-backbone)	BLEU-4	36.25	—	Unverified
8	CoCap (ViT/L14)	BLEU-4	35.8	—	Unverified
9	ORG-TRL	BLEU-4	32.1	—	Unverified
10	NITS-VC	BLEU-4	20	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VideoCoCa	BLEU4	14.7	—	Unverified
2	VLTinT (ae-test split) C3D/Ling	BLEU4	14.5	—	Unverified
3	VLCap (ae-test split) - Appearance + Language	BLEU4	13.38	—	Unverified
4	COOT (ae-test split) - Only Appearance features	BLEU4	10.85	—	Unverified
5	MART (ae-test split) - Appearance + Flow	BLEU4	10.33	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	49.87	—	Unverified
2	GIT	CIDEr	32.43	—	Unverified
3	SEM-POS	CIDEr	26.01	—	Unverified
4	AKGNN	CIDEr	25.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CEN	CIDEr	63.51	—	Unverified
2	GIT	CIDEr	45.63	—	Unverified
3	SEM-POS	CIDEr	37.16	—	Unverified
4	AKGNN	CIDEr	35.08	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SBD_Keyframe	BLEU4	41.01	—	Unverified
2	V+S-Att-based	BLEU4	36.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VAST	BLEU-4	19.9	—	Unverified
2	COSA	BLEU-4	18.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GVT	BLEU4	17.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VNS-GRU (Cross-Lingual)	BLEU-4	58.68	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Shot2Story	CIDEr	37.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vid2Seq	CIDEr	120.5	—	Unverified