Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 851–900 of 1878 papers

Title	Date	Tasks	Status	Hype
ILLUME: Rationalizing Vision-Language Models through Human Interactions	Aug 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	0
Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning	Aug 13, 2022	Image Captioning	CodeCode Available	1
Aesthetic Attributes Assessment of Images with AMANv2 and DPC-CaptionsV2	Aug 9, 2022	AttributeImage Captioning	—Unverified	0
Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning	Aug 8, 2022	Image CaptioningImage Generation	CodeCode Available	1
Distinctive Image Captioning via CLIP Guided Group Optimization	Aug 8, 2022	Image Captioning	—Unverified	0
RadTex: Learning Efficient Radiograph Representations from Text Reports	Aug 5, 2022	ClassificationDecoder	—Unverified	0
Prompt Tuning for Generative Multimodal Pretrained Models	Aug 4, 2022	Image CaptioningVisual Entailment	—Unverified	0
Neuro-Symbolic Learning: Principles and Applications in Ophthalmology	Jul 31, 2022	Common Sense ReasoningImage Captioning	—Unverified	0
Retrieval-Augmented Transformer for Image Captioning	Jul 26, 2022	Image CaptioningRetrieval	—Unverified	0
Zero-Shot Video Captioning with Evolving Pseudo-Tokens	Jul 22, 2022	Image CaptioningImage-text matching	CodeCode Available	1
Rethinking the Reference-based Distinctive Image Captioning	Jul 22, 2022	AttributeBenchmarking	CodeCode Available	0
Efficient Modeling of Future Context for Image Captioning	Jul 22, 2022	Image CaptioningSentence	CodeCode Available	0
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features	Jul 20, 2022	Image Captioning	CodeCode Available	1
Dual-branch Hybrid Learning Network for Unbiased Scene Graph Generation	Jul 16, 2022	Graph GenerationImage Captioning	CodeCode Available	1
LineCap: Line Charts for Data Visualization Captioning Models	Jul 15, 2022	Data VisualizationDeep Learning	CodeCode Available	0
A Baseline for Detecting Out-of-Distribution Examples in Image Captioning	Jul 12, 2022	Image CaptioningOut of Distribution (OOD) Detection	—Unverified	0
Adaptive Fine-Grained Predicates Learning for Scene Graph Generation	Jul 11, 2022	Fine-Grained Image ClassificationGraph Generation	—Unverified	0
Predicting Word Learning in Children from the Performance of Computer Vision Systems	Jul 7, 2022	Image Captioning	—Unverified	0
Exploring the sequence length bottleneck in the Transformer for Image Captioning	Jul 7, 2022	Image Captioning	CodeCode Available	0
Detecting and Recovering Sequential DeepFake Manipulation	Jul 5, 2022	DeepFake DetectionFace Swapping	CodeCode Available	1
Are metrics measuring what they should? An evaluation of image captioning task metrics	Jul 4, 2022	Image Captioning	—Unverified	0
MilaNLP at SemEval-2022 Task 5: Using Perceiver IO for Detecting Misogynous Memes with Text and Image Modalities	Jul 1, 2022	Image Captioning	CodeCode Available	0
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified	0
ZoDIAC: Zoneout Dropout Injection Attention Calculation	Jun 28, 2022	Image Captioningimage-classification	CodeCode Available	0
Competence-based Multimodal Curriculum Learning for Medical Report Generation	Jun 24, 2022	Image CaptioningMedical Report Generation	—Unverified	0
DALL-E for Detection: Language-driven Compositional Image Synthesis for Object Detection	Jun 20, 2022	Image CaptioningImage Generation	—Unverified	0
What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs	Jun 19, 2022	BenchmarkingImage Captioning	CodeCode Available	1
A Self-Guided Framework for Radiology Report Generation	Jun 19, 2022	Image CaptioningMedical Report Generation	—Unverified	0
0/1 Deep Neural Networks via Block Coordinate Descent	Jun 19, 2022	10-shot image generation	—Unverified	0
Image Captioning based on Feature Refinement and Reflective Decoding	Jun 16, 2022	DecoderImage Captioning	—Unverified	0
A Unified Sequence Interface for Vision Tasks	Jun 15, 2022	Image CaptioningInstance Segmentation	—Unverified	0
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone	Jun 15, 2022	Described Object DetectionImage Captioning	CodeCode Available	1
Measuring Representational Harms in Image Captioning	Jun 14, 2022	FairnessImage Captioning	—Unverified	0
Comprehending and Ordering Semantics for Image Captioning	Jun 14, 2022	Cross-Modal RetrievalImage Captioning	CodeCode Available	2
Language Models are General-Purpose Interfaces	Jun 13, 2022	Causal Language ModelingFew-Shot Learning	—Unverified	0
GLIPv2: Unifying Localization and Vision-Language Understanding	Jun 12, 2022	2D Object DetectionContrastive Learning	CodeCode Available	4
Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs	Jun 9, 2022	Image CaptioningImage Classification	CodeCode Available	2
Intra-agent speech permits zero-shot task acquisition	Jun 7, 2022	Image Captioning	—Unverified	0
Improving Image Captioning with Control Signal of Sentence Quality	Jun 7, 2022	Image CaptioningSentence	—Unverified	0
Examining the Effects of Language-and-Vision Data Augmentation for Generation of Descriptions of Human Faces	Jun 1, 2022	Caption GenerationData Augmentation	—Unverified	0
Visual Transformer for Object Detection	Jun 1, 2022	Image CaptioningMachine Translation	—Unverified	0
Expressive Scene Graph Generation Using Commonsense Knowledge Infusion for Visual Understanding and Reasoning	May 31, 2022	Common Sense ReasoningGraph Generation	CodeCode Available	1
BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset	May 28, 2022	Image CaptioningMachine Translation	CodeCode Available	0
Variational Transformer: A Framework Beyond the Trade-off between Accuracy and Diversity for Image Captioning	May 28, 2022	DiversityImage Captioning	CodeCode Available	0
GIT: A Generative Image-to-text Transformer for Vision and Language	May 27, 2022	DecoderImage Captioning	CodeCode Available	2
Prompt-based Learning for Unpaired Image Captioning	May 26, 2022	Image CaptioningImage-text Retrieval	—Unverified	0
Fine-grained Image Captioning with CLIP Reward	May 26, 2022	Caption GenerationDescriptive	CodeCode Available	2
Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset	May 25, 2022	Image CaptioningImage Retrieval	—Unverified	0
Mutual Information Divergence: A Unified Metric for Multimodal Generative Models	May 25, 2022	Hallucination Pair-wise Detection (1-ref)Hallucination Pair-wise Detection (4-ref)	CodeCode Available	1
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization	May 24, 2022	Image CaptioningOut-of-Distribution Generalization	—Unverified	0

Show:10 25 50

← PrevPage 18 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified