Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1701–1750 of 1878 papers

Title	Date	Tasks	Status
Caption Enriched Samples for Improving Hateful Memes Detection	Sep 22, 2021	Image Captioning	CodeCode Available
Adaptive Correlated Monte Carlo for Contextual Categorical Sequence Generation	Dec 31, 2019	Image CaptioningProgram Synthesis	CodeCode Available
Neural Twins Talk	Sep 26, 2020	Image CaptioningSentence	CodeCode Available
Neural Twins Talk & Alternative Calculations	Aug 5, 2021	DescriptiveImage Captioning	CodeCode Available
Show, Translate and Tell	Mar 14, 2019	Cross-Modal RetrievalImage Captioning	CodeCode Available
Guided Open Vocabulary Image Captioning with Constrained Beam Search	Dec 2, 2016	Image CaptioningTAG	CodeCode Available
Decoupled Novel Object Captioner	Apr 11, 2018	Image CaptioningNovel Concepts	CodeCode Available
Decoding fMRI Data into Captions using Prefix Language Modeling	Jan 5, 2025	Brain DecodingImage Captioning	CodeCode Available
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available
Translating speech with just images	Jun 11, 2024	Image CaptioningTranslation	CodeCode Available
simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions	Aug 27, 2018	DecoderImage Captioning	CodeCode Available
CAPEEN: Image Captioning with Early Exits and Knowledge Distillation	Oct 6, 2024	DescriptiveImage Captioning	CodeCode Available
What is image captioning made of?	Jan 1, 2018	Image CaptioningText Generation	CodeCode Available
nocaps: novel object captioning at scale	Dec 20, 2018	Image CaptioningObject	CodeCode Available
The Role of Data Curation in Image Captioning	May 5, 2023	Few-Shot LearningImage Captioning	CodeCode Available
GSRFormer: Grounded Situation Recognition Transformer with Alternate Semantic Attention Refinement	Aug 18, 2022	Grounded Situation RecognitionImage Captioning	CodeCode Available
No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling	Apr 24, 2018	Image CaptioningReinforcement Learning	CodeCode Available
Counterfactual Maximum Likelihood Estimation for Training Deep Networks	Jun 7, 2021	counterfactualDomain Generalization	CodeCode Available
What Is Missing in Multilingual Visual Reasoning and How to Fix It	Mar 3, 2024	Image CaptioningVisual Reasoning	CodeCode Available
Treble Counterfactual VLMs: A Causal Approach to Hallucination	Mar 8, 2025	Autonomous Drivingcounterfactual	CodeCode Available
Group Relative Policy Optimization for Image Captioning	Mar 3, 2025	DiversityImage Captioning	CodeCode Available
A Critical Review of Recurrent Neural Networks for Sequence Learning	May 29, 2015	Handwriting RecognitionImage Captioning	CodeCode Available
Top-Down Framework for Weakly-supervised Grounded Image Captioning	Jun 13, 2023	Image CaptioningMulti-Label Classification	CodeCode Available
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering	Nov 17, 2015	Image CaptioningQuestion Answering	CodeCode Available
Correlating instruction-tuning (in multimodal models) with vision-language processing (in the brain)	May 26, 2025	Image Captioning	CodeCode Available
Object-Centric Unsupervised Image Captioning	Dec 2, 2021	Image CaptioningObject	CodeCode Available
TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning	Sep 30, 2024	Image CaptioningObject	CodeCode Available
Object Hallucination in Image Captioning	Sep 6, 2018	HallucinationImage Captioning	CodeCode Available
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis	Jun 2, 2021	Image Captioning	CodeCode Available
TS-RGBD Dataset: a Novel Dataset for Theatre Scenes Description for People with Visual Impairments	Aug 2, 2023	Action RecognitionImage Captioning	CodeCode Available
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available
Grand Challenge On Detecting Cheapfakes	Apr 3, 2023	Image Captioning	CodeCode Available
OmniNet: A unified architecture for multi-modal multi-task learning	Jul 17, 2019	Image CaptioningMulti-Task Learning	CodeCode Available
Grad-CAM: Why did you say that?	Nov 22, 2016	Image CaptioningVisual Question Answering	CodeCode Available
TTIDA: Controllable Generative Data Augmentation via Text-to-Text and Text-to-Image Models	Apr 18, 2023	Data AugmentationDiversity	CodeCode Available
Sparse and Structured Visual Attention	Feb 13, 2020	Image CaptioningQuestion Answering	CodeCode Available
What is the Role of Recurrent Neural Networks (RNNs) in an Image Caption Generator?	Aug 7, 2017	Image Captioning	CodeCode Available
A Semi-supervised Framework for Image Captioning	Nov 16, 2016	DecoderImage Captioning	CodeCode Available
Are Vision LLMs Road-Ready? A Comprehensive Benchmark for Safety-Critical Driving Video Understanding	Apr 20, 2025	Autonomous DrivingImage Captioning	CodeCode Available
Vision Matters When It Should: Sanity Checking Multimodal Machine Translation Models	Sep 8, 2021	Image CaptioningMachine Translation	CodeCode Available
Can adversarial training learn image captioning ?	Oct 31, 2019	Image CaptioningText Generation	CodeCode Available
On Measuring Gender Bias in Translation of Gender-neutral Pronouns	May 28, 2019	EthicsImage Captioning	CodeCode Available
UdL at SemEval-2017 Task 1: Semantic Textual Similarity Estimation of English Sentence Pairs Using Regression Model over Pairwise Features	Aug 1, 2017	Ensemble LearningImage Captioning	CodeCode Available
GPTs Are Multilingual Annotators for Sequence Generation Tasks	Feb 8, 2024	Image Captioning	CodeCode Available
Core Tokensets for Data-efficient Sequential Training of Transformers	Oct 8, 2024	Image Captioningimage-classification	CodeCode Available
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights	Jul 16, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available
On the Interpretability of Attention Networks	Dec 30, 2022	Image Captioning	CodeCode Available
Adapting Contrastive Language-Image Pretrained (CLIP) Models for Out-of-Distribution Detection	Mar 10, 2023	Anomaly DetectionImage Captioning	CodeCode Available
A Hierarchical Approach for Generating Descriptive Image Paragraphs	Nov 20, 2016	Dense CaptioningDescriptive	CodeCode Available
Stack-Captioning: Coarse-to-Fine Learning for Image Captioning	Sep 11, 2017	DecoderImage Captioning	CodeCode Available

Show:10 25 50

← PrevPage 35 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified