Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 1878 papers

Title	Date	Tasks	Status	Hype
An In-depth Walkthrough on Evolution of Neural Machine Translation	Apr 10, 2020	Abstractive Text SummarizationImage Captioning	—Unverified	0
Context-Aware Group Captioning via Self-Attention and Contrastive Features	Apr 7, 2020	Image Captioning	—Unverified	0
B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning	Apr 6, 2020	Bayesian InferenceImage Captioning	—Unverified	0
Evaluating Multimodal Representations on Visual Semantic Textual Similarity	Apr 4, 2020	BenchmarkingImage Captioning	CodeCode Available	1
MemCap: Memorizing Style Knowledge for Image Captioning	Apr 3, 2020	Image CaptioningLanguage Modeling	CodeCode Available	1
Consistent Multiple Sequence Decoding	Apr 2, 2020	DecoderDiversity	—Unverified	0
More Grounded Image Captioning by Distilling Image-Text Matching Model	Apr 1, 2020	Image CaptioningImage-text matching	CodeCode Available	1
X-Linear Attention Networks for Image Captioning	Mar 31, 2020	DecoderFine-Grained Visual Recognition	CodeCode Available	1
Assessing Image Quality Issues for Real-World Problems	Mar 27, 2020	Image CaptioningQuestion Answering	—Unverified	0
Egoshots, an ego-vision life-logging dataset and semantic fidelity metric to evaluate diversity in image captioning models	Mar 26, 2020	DiversityImage Captioning	CodeCode Available	1
TextCaps: a Dataset for Image Captioning with Reading Comprehension	Mar 24, 2020	Image CaptioningOptical Character Recognition	—Unverified	0
Learning Compact Reward for Image Captioning	Mar 24, 2020	DiversityImage Captioning	—Unverified	0
A Better Variant of Self-Critical Sequence Training	Mar 22, 2020	Image Captioning	CodeCode Available	2
Normalized and Geometry-Aware Self-Attention Network for Image Captioning	Mar 19, 2020	Image CaptioningMachine Translation	—Unverified	0
Deconfounded Image Captioning: A Causal Retrospect	Mar 9, 2020	Causal InferenceImage Captioning	—Unverified	0
Better Captioning with Sequence-Level Exploration	Mar 8, 2020	Image Captioning	—Unverified	0
Show, Edit and Tell: A Framework for Editing Image Captions	Mar 6, 2020	DenoisingImage Captioning	CodeCode Available	1
Captioning Images with Novel Objects via Online Vocabulary Expansion	Mar 6, 2020	Image CaptioningWord Embeddings	—Unverified	0
XGPT: Cross-modal Generative Pre-Training for Image Captioning	Mar 3, 2020	Data AugmentationDenoising	—Unverified	0
Using Image Captions and Multitask Learning for Recommending Query Reformulations	Mar 2, 2020	DescriptiveImage Captioning	—Unverified	0
Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs	Mar 1, 2020	AttributeCaption Generation	CodeCode Available	1
Exploring and Distilling Cross-Modal Information for Image Captioning	Feb 28, 2020	AttributeDecoder	—Unverified	0
Analysis of diversity-accuracy tradeoff in image captioning	Feb 27, 2020	DiversityImage Captioning	CodeCode Available	1
Visual Commonsense R-CNN	Feb 27, 2020	Image CaptioningRepresentation Learning	CodeCode Available	1
Image to Language Understanding: Captioning approach	Feb 21, 2020	DecoderImage Captioning	—Unverified	0
Captioning Images Taken by People Who Are Blind	Feb 20, 2020	DiversityImage Captioning	—Unverified	0
When Radiology Report Generation Meets Knowledge Graph	Feb 19, 2020	Graph EmbeddingImage Captioning	—Unverified	0
Latent Normalizing Flows for Many-to-Many Cross-Domain Mappings	Feb 16, 2020	Image CaptioningImage Generation	CodeCode Available	1
Gaussian Smoothen Semantic Features (GSSF) -- Exploring the Linguistic Aspects of Visual Captioning in Indian Languages (Bengali) Using MSCOCO Framework	Feb 16, 2020	DiversityImage Captioning	—Unverified	0
MRRC: Multiple Role Representation Crossover Interpretation for Image Captioning With R-CNN Feature Distribution Composition (FDC)	Feb 15, 2020	DecoderImage Captioning	—Unverified	0
Dual-CNN: A Convolutional language decoder for paragraph image captioning	Feb 14, 2020	DecoderDiversity	—Unverified	0
Sparse and Structured Visual Attention	Feb 13, 2020	Image CaptioningQuestion Answering	CodeCode Available	0
Learning Long- and Short-Term User Literal-Preference with Multimodal Hierarchical Transformer Network for Personalized Image Caption	Feb 4, 2020	Image Captioning	—Unverified	0
Hide-and-Tell: Learning to Bridge Photo Streams for Visual Storytelling	Feb 3, 2020	Image CaptioningVisual Storytelling	—Unverified	0
UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning	Feb 1, 2020	Image CaptioningVietnamese Datasets	CodeCode Available	0
iCap: Interactive Image Captioning with Predictive Text	Jan 31, 2020	Image CaptioningSentence	—Unverified	0
aiTPR: Attribute Interaction-Tensor Product Representation for Image Caption	Jan 27, 2020	AttributeImage Captioning	—Unverified	0
Adapting Grad-CAM for Embedding Networks	Jan 17, 2020	Image Captioningimage-classification	CodeCode Available	1
Show, Recall, and Tell: Image Captioning with Recall Mechanism	Jan 15, 2020	Image CaptioningRetrieval	—Unverified	0
MHSAN: Multi-Head Self-Attention Network for Visual Semantic Embedding	Jan 11, 2020	Image CaptioningImage-text Retrieval	CodeCode Available	0
In Defense of Grid Features for Visual Question Answering	Jan 10, 2020	Image CaptioningQuestion Answering	CodeCode Available	1
Explain and Improve: LRP-Inference Fine-Tuning for Image Captioning Models	Jan 4, 2020	HallucinationImage Captioning	CodeCode Available	0
Discoverability in Satellite Imagery: A Good Sentence is Worth a Thousand Pictures	Jan 3, 2020	Change DetectionDescriptive	—Unverified	0
HOW IMPORTANT ARE NETWORK WEIGHTS? TO WHAT EXTENT DO THEY NEED AN UPDATE?	Jan 1, 2020	Image Captioning	—Unverified	0
Adaptive Correlated Monte Carlo for Contextual Categorical Sequence Generation	Dec 31, 2019	Image CaptioningProgram Synthesis	CodeCode Available	0
Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection	Dec 25, 2019	Image CaptioningLanguage Modeling	CodeCode Available	0
Going Beneath the Surface: Evaluating Image Captioning for Grammaticality, Truthfulness and Diversity	Dec 19, 2019	DiagnosticDiversity	—Unverified	0
Contextually Plausible and Diverse 3D Human Motion Prediction	Dec 18, 2019	DiversityHuman motion prediction	—Unverified	0
Meshed-Memory Transformer for Image Captioning	Dec 17, 2019	Image CaptioningMachine Translation	CodeCode Available	0
Fast Image Caption Generation with Position Alignment	Dec 13, 2019	Caption GenerationDecoder	—Unverified	0

Show:10 25 50

← PrevPage 27 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified