Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1351–1400 of 1878 papers

Title	Date	Tasks	Status
B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning	Apr 6, 2020	Bayesian InferenceImage Captioning	—Unverified
Consistent Multiple Sequence Decoding	Apr 2, 2020	DecoderDiversity	—Unverified
Assessing Image Quality Issues for Real-World Problems	Mar 27, 2020	Image CaptioningQuestion Answering	—Unverified
Learning Compact Reward for Image Captioning	Mar 24, 2020	DiversityImage Captioning	—Unverified
TextCaps: a Dataset for Image Captioning with Reading Comprehension	Mar 24, 2020	Image CaptioningOptical Character Recognition	—Unverified
Normalized and Geometry-Aware Self-Attention Network for Image Captioning	Mar 19, 2020	Image CaptioningMachine Translation	—Unverified
Deconfounded Image Captioning: A Causal Retrospect	Mar 9, 2020	Causal InferenceImage Captioning	—Unverified
Better Captioning with Sequence-Level Exploration	Mar 8, 2020	Image Captioning	—Unverified
Captioning Images with Novel Objects via Online Vocabulary Expansion	Mar 6, 2020	Image CaptioningWord Embeddings	—Unverified
XGPT: Cross-modal Generative Pre-Training for Image Captioning	Mar 3, 2020	Data AugmentationDenoising	—Unverified
Using Image Captions and Multitask Learning for Recommending Query Reformulations	Mar 2, 2020	DescriptiveImage Captioning	—Unverified
Exploring and Distilling Cross-Modal Information for Image Captioning	Feb 28, 2020	AttributeDecoder	—Unverified
Image to Language Understanding: Captioning approach	Feb 21, 2020	DecoderImage Captioning	—Unverified
Captioning Images Taken by People Who Are Blind	Feb 20, 2020	DiversityImage Captioning	—Unverified
When Radiology Report Generation Meets Knowledge Graph	Feb 19, 2020	Graph EmbeddingImage Captioning	—Unverified
Gaussian Smoothen Semantic Features (GSSF) -- Exploring the Linguistic Aspects of Visual Captioning in Indian Languages (Bengali) Using MSCOCO Framework	Feb 16, 2020	DiversityImage Captioning	—Unverified
MRRC: Multiple Role Representation Crossover Interpretation for Image Captioning With R-CNN Feature Distribution Composition (FDC)	Feb 15, 2020	DecoderImage Captioning	—Unverified
Dual-CNN: A Convolutional language decoder for paragraph image captioning	Feb 14, 2020	DecoderDiversity	—Unverified
Sparse and Structured Visual Attention	Feb 13, 2020	Image CaptioningQuestion Answering	CodeCode Available
Learning Long- and Short-Term User Literal-Preference with Multimodal Hierarchical Transformer Network for Personalized Image Caption	Feb 4, 2020	Image Captioning	—Unverified
Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling	Feb 3, 2020	Image CaptioningVisual Storytelling	—Unverified
UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning	Feb 1, 2020	Image CaptioningVietnamese Datasets	CodeCode Available
iCap: Interactive Image Captioning with Predictive Text	Jan 31, 2020	Image CaptioningSentence	—Unverified
aiTPR: Attribute Interaction-Tensor Product Representation for Image Caption	Jan 27, 2020	AttributeImage Captioning	—Unverified
Show, Recall, and Tell: Image Captioning with Recall Mechanism	Jan 15, 2020	Image CaptioningRetrieval	—Unverified
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding	Jan 11, 2020	Image CaptioningImage-text Retrieval	CodeCode Available
Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning Models	Jan 4, 2020	HallucinationImage Captioning	CodeCode Available
Discoverability in Satellite Imagery: A Good Sentence is Worth a Thousand Pictures	Jan 3, 2020	Change DetectionDescriptive	—Unverified
HOW IMPORTANT ARE NETWORK WEIGHTS? TO WHAT EXTENT DO THEY NEED AN UPDATE?	Jan 1, 2020	Image Captioning	—Unverified
Adaptive Correlated Monte Carlo for Contextual Categorical Sequence Generation	Dec 31, 2019	Image CaptioningProgram Synthesis	CodeCode Available
Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection	Dec 25, 2019	Image CaptioningLanguage Modeling	CodeCode Available
Going Beneath the Surface: Evaluating Image Captioning for Grammaticality, Truthfulness and Diversity	Dec 19, 2019	DiagnosticDiversity	—Unverified
Contextually Plausible and Diverse 3D Human Motion Prediction	Dec 18, 2019	DiversityHuman motion prediction	—Unverified
Meshed-Memory Transformer for Image Captioning	Dec 17, 2019	Image CaptioningMachine Translation	CodeCode Available
Fast Image Caption Generation with Position Alignment	Dec 13, 2019	Caption GenerationDecoder	—Unverified
Connecting Vision and Language with Localized Narratives	Dec 6, 2019	FormImage Captioning	CodeCode Available
Scratch that! An Evolution-based Adversarial Attack against Neural Networks	Dec 5, 2019	Adversarial AttackImage Captioning	CodeCode Available
Better Understanding Hierarchical Visual Relationship for Image Caption	Dec 4, 2019	DecoderImage Captioning	—Unverified
Exposing and Correcting the Gender Bias in Image Captioning Datasets and Models	Dec 2, 2019	Gender ClassificationImage Captioning	—Unverified
Deep Bayesian Active Learning for Multiple Correct Outputs	Dec 2, 2019	Active LearningAnswer Generation	—Unverified
Learning to Relate from Captions and Bounding Boxes	Dec 1, 2019	Image CaptioningRelation Classification	—Unverified
Interpreting Context of Images using Scene Graphs	Dec 1, 2019	Image CaptioningImage Retrieval	—Unverified
Variational Structured Semantic Inference for Diverse Image Captioning	Dec 1, 2019	DecoderDiversity	—Unverified
OptiBox: Breaking the Limits of Proposals for Visual Grounding	Nov 29, 2019	Image CaptioningVisual Grounding	—Unverified
Multimodal Machine Translation through Visuals and Speech	Nov 28, 2019	Image CaptioningMachine Translation	—Unverified
Towards Fairness in Visual Recognition: Effective Strategies for Bias Mitigation	Nov 26, 2019	Activity RecognitionAttribute	CodeCode Available
Event Recognition with Automatic Album Detection based on Sequential Processing, Neural Attention and Image Captioning	Nov 25, 2019	ClusteringImage Captioning	—Unverified
Injecting Prior Knowledge into Image Caption Generation	Nov 22, 2019	Caption GenerationImage Captioning	—Unverified
CRUR: Coupled-Recurrent Unit for Unification, Conceptualization and Context Capture for Language Representation -- A Generalization of Bi Directional LSTM	Nov 22, 2019	Image Captioning	—Unverified
TPsgtR: Neural-Symbolic Tensor Product Scene-Graph-Triplet Representation for Image Captioning	Nov 22, 2019	Caption GenerationImage Captioning	—Unverified

Show:10 25 50

← PrevPage 28 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified