Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1751–1800 of 1878 papers

Title	Date	Tasks	Status	Hype
Re-evaluating Automatic Metrics for Image Captioning	Dec 22, 2016	Image Captioning	—Unverified	0
Understanding Image and Text Simultaneously: a Dual Vision-Language Machine Comprehension Task	Dec 22, 2016	Image CaptioningMulti-Task Learning	—Unverified	0
An Empirical Study of Language CNN for Image Captioning	Dec 21, 2016	Caption GenerationImage Captioning	CodeCode Available	0
Beyond Holistic Object Recognition: Enriching Image Understanding with Part States	Dec 15, 2016	Human-Object Interaction DetectionImage Captioning	—Unverified	0
Recurrent Image Captioner: Describing Images with Spatial-Invariant Transformation and Attention Filtering	Dec 15, 2016	DecoderImage Captioning	—Unverified	0
Spatial Pyramid Convolutional Neural Network for Social Event Detection in Static Image	Dec 13, 2016	Event DetectionImage Captioning	—Unverified	0
Text-guided Attention Model for Image Captioning	Dec 12, 2016	Image Captioningmodel	CodeCode Available	0
COCO-Stuff: Thing and Stuff Classes in Context	Dec 12, 2016	Image CaptioningSemantic Segmentation	CodeCode Available	1
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning	Dec 6, 2016	DecoderImage Captioning	CodeCode Available	0
Areas of Attention for Image Captioning	Dec 3, 2016	Image CaptioningLanguage Modeling	—Unverified	0
Guided Open Vocabulary Image Captioning with Constrained Beam Search	Dec 2, 2016	Image CaptioningTAG	CodeCode Available	0
Self-critical Sequence Training for Image Captioning	Dec 2, 2016	Image CaptioningPolicy Gradient Methods	CodeCode Available	1
Video Event Detection by Exploiting Word Dependencies from Image Captions	Dec 1, 2016	Action DetectionEvent Detection	—Unverified	0
Improved Image Captioning via Policy Gradient optimization of SPIDEr	Dec 1, 2016	Image Captioning	CodeCode Available	0
Plug & Play Generative Networks: Conditional Iterative Generation of Images in Latent Space	Nov 30, 2016	Image CaptioningImage Inpainting	CodeCode Available	0
On Human Intellect and Machine Failures: Troubleshooting Integrative Machine Learning Systems	Nov 24, 2016	BIG-bench Machine LearningImage Captioning	—Unverified	0
Semantic Compositional Networks for Visual Captioning	Nov 23, 2016	Image CaptioningSemantic Composition	CodeCode Available	0
Grad-CAM: Why did you say that?	Nov 22, 2016	Image CaptioningVisual Question Answering	CodeCode Available	0
A Hierarchical Approach for Generating Descriptive Image Paragraphs	Nov 20, 2016	Dense CaptioningDescriptive	CodeCode Available	0
SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning	Nov 17, 2016	Image CaptioningSentence	CodeCode Available	0
Semantic Regularisation for Recurrent Image Annotation	Nov 16, 2016	General ClassificationImage Captioning	—Unverified	0
A Semi-supervised Framework for Image Captioning	Nov 16, 2016	DecoderImage Captioning	CodeCode Available	0
Learning a Deep Embedding Model for Zero-Shot Learning	Nov 15, 2016	Image CaptioningSentence	CodeCode Available	0
Boosting Image Captioning with Attributes	Nov 5, 2016	Image Captioning	—Unverified	0
Neural Headline Generation on Abstract Meaning Representation	Nov 1, 2016	Abstract Meaning RepresentationDependency Parsing	—Unverified	0
Can Active Memory Replace Attention?	Oct 27, 2016	Image Captioningimage-classification	CodeCode Available	0
Generating captions without looking beyond objects	Oct 12, 2016	Caption GenerationImage Captioning	—Unverified	0
Diverse Beam Search: Decoding Diverse Solutions from Neural Sequence Models	Oct 7, 2016	DiversityImage Captioning	CodeCode Available	1
Show and Tell: Lessons learned from the 2015 MSCOCO Image Captioning Challenge	Sep 21, 2016	Image CaptioningSentence	CodeCode Available	1
Multimodal Attention for Neural Machine Translation	Sep 13, 2016	Image CaptioningMachine Translation	—Unverified	0
Effect of Data Annotation, Feature Selection and Model Choice on Spatial Description Generation in French	Sep 1, 2016	feature selectionImage Captioning	—Unverified	0
Sketch-to-Text Generation: Toward Contextual, Creative, and Coherent Composition	Sep 1, 2016	Image CaptioningSketch-to-text Generation	—Unverified	0
Measuring Machine Intelligence Through Visual Question Answering	Aug 31, 2016	Image CaptioningQuestion Answering	—Unverified	0
Utilizing Large Scale Vision and Text Datasets for Image Segmentation from Referring Expressions	Aug 30, 2016	Image CaptioningImage Segmentation	—Unverified	0
Learning to generalize to new compositions in image understanding	Aug 27, 2016	Image CaptioningStructured Prediction	—Unverified	0
phi-LSTM: A Phrase-based Hierarchical LSTM Model for Image Captioning	Aug 20, 2016	Image CaptioningImage Description	—Unverified	0
Seeing with Humans: Gaze-Assisted Neural Image Captioning	Aug 18, 2016	Image CaptioningObject	—Unverified	0
DeepDiary: Automatic Caption Generation for Lifelogging Image Streams	Aug 12, 2016	Caption GenerationImage Captioning	CodeCode Available	0
Focused Evaluation for Image Description with Binary Forced-Choice Tasks	Aug 1, 2016	Image CaptioningImage Description	—Unverified	0
WMT 2016 Multimodal Translation System Description based on Bidirectional Recurrent Neural Networks with Double-Embeddings	Aug 1, 2016	Image CaptioningLanguage Modeling	—Unverified	0
Attention-based Multimodal Neural Machine Translation	Aug 1, 2016	Image CaptioningMachine Translation	—Unverified	0
Generating Natural Language Descriptions for Semantic Representations of Human Brain Activity	Aug 1, 2016	Image Captioning	—Unverified	0
MUTT: Metric Unit TesTing for Language Generation Tasks	Aug 1, 2016	Image CaptioningMachine Translation	—Unverified	0
Cross-Lingual Image Caption Generation	Aug 1, 2016	Caption GenerationDependency Parsing	—Unverified	0
Improved Semantic Parsers For If-Then Statements	Aug 1, 2016	Feature EngineeringImage Captioning	—Unverified	0
SPICE: Semantic Propositional Image Caption Evaluation	Jul 29, 2016	Image Captioning	CodeCode Available	1
MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition	Jul 27, 2016	Face RecognitionImage Captioning	CodeCode Available	1
Watch What You Just Said: Image Captioning with Text-Conditional Attention	Jun 15, 2016	Image CaptioningLanguage Modeling	CodeCode Available	0
Automated Image Captioning for Rapid Prototyping and Resource Constrained Environments	Jun 4, 2016	Image CaptioningWord Embeddings	—Unverified	0
MSR-VTT: A Large Video Description Dataset for Bridging Video and Language	Jun 1, 2016	Image CaptioningSentence	—Unverified	0

Show:10 25 50

← PrevPage 36 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified