Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1550 of 1878 papers

Title	Date	Tasks	Status
Multimodal Transformer with Multi-View Visual Representation for Image Captioning	May 20, 2019	DecoderImage Captioning	—Unverified
Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation	Aug 28, 2018	Image CaptioningMachine Translation	—Unverified
Multi-view and Cross-view Brain Decoding	Oct 1, 2022	Brain DecodingImage Captioning	—Unverified
MUMU: Bootstrapping Multimodal Image Generation from Text-to-Image Data	Jun 26, 2024	DecoderGPU	—Unverified
MUTT: Metric Unit TesTing for Language Generation Tasks	Aug 1, 2016	Image CaptioningMachine Translation	—Unverified
MyVLM: Personalizing VLMs for User-Specific Queries	Mar 21, 2024	Image CaptioningLanguage Modelling	—Unverified
Natural Language Generation	Mar 20, 2025	Image CaptioningImage to text	—Unverified
Natural Language Statistical Features of LSTM-generated Texts	Apr 10, 2018	Image CaptioningText Generation	—Unverified
Nemesis: Neural Mean Teacher Learning-Based Emotion-Centric Speaker	Feb 9, 2023	Image Captioning	—Unverified
Netizen-Style Commenting on Fashion Photos: Dataset and Diversity Measures	Jan 31, 2018	Cultural Vocal Bursts Intensity PredictionDiversity	—Unverified
Neural Attention for Image Captioning: Review of Outstanding Methods	Nov 29, 2021	DecoderDeep Learning	—Unverified
Neural Caption Generation for News Images	May 1, 2018	Caption GenerationImage Captioning	—Unverified
Neural Headline Generation on Abstract Meaning Representation	Nov 1, 2016	Abstract Meaning RepresentationDependency Parsing	—Unverified
Neural Image Captioning	Jul 2, 2019	Image CaptioningMachine Translation	—Unverified
Neural Joking Machine : Humorous image captioning	May 30, 2018	Image Captioning	—Unverified
Neural Machine Translation: Basics, Practical Aspects and Recent Trends	Nov 1, 2017	Image CaptioningMachine Translation	—Unverified
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning	Oct 4, 2022	Image CaptioningSentence	CodeCode Available
Rethinking the Reference-based Distinctive Image Captioning	Jul 22, 2022	AttributeBenchmarking	CodeCode Available
Learning to Evaluate Image Captioning	Jun 17, 2018	8kData Augmentation	CodeCode Available
ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with Unpaired Stylistic Corpora	Aug 2, 2023	Contrastive LearningDiversity	CodeCode Available
Learning like a Child: Fast Novel Visual Concept Learning from Sentence Descriptions of Images	Apr 25, 2015	Image CaptioningNovel Concepts	CodeCode Available
Bangla Image Caption Generation through CNN-Transformer based Encoder-Decoder Network	Oct 24, 2021	Caption GenerationDecoder	CodeCode Available
Retrieval Augmentation for Deep Neural Networks	Feb 25, 2021	Image CaptioningRetrieval	CodeCode Available
Evaluating and interpreting caption prediction for histopathology images	Jul 8, 2020	Caption GenerationImage Captioning	CodeCode Available
Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning	Apr 1, 2024	Image CaptioningInstruction Following	CodeCode Available
The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning	Nov 18, 2024	Image Captioning	CodeCode Available
Learning Visually-Grounded Semantics from Contrastive Adversarial Samples	Jun 27, 2018	Adversarial AttackImage Captioning	CodeCode Available
BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset	May 28, 2022	Image CaptioningMachine Translation	CodeCode Available
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory	Dec 10, 2022	Image CaptioningLanguage Modeling	CodeCode Available
Learning a Deep Embedding Model for Zero-Shot Learning	Nov 15, 2016	Image CaptioningSentence	CodeCode Available
AlphaX: eXploring Neural Architectures with Deep Neural Networks and Monte Carlo Tree Search	Mar 26, 2019	GPUImage Captioning	CodeCode Available
The Role of Syntactic Planning in Compositional Image Captioning	Jan 28, 2021	Image Captioning	CodeCode Available
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning	Nov 17, 2024	Image CaptioningLanguage Modeling	CodeCode Available
Leveraging Human Attention in Novel Object Captioning	Aug 19, 2021	Image CaptioningObject	CodeCode Available
Leveraging image captions for selective whole slide image annotation	Jul 8, 2024	DiversityImage Captioning	CodeCode Available
Women Wearing Lipstick: Measuring the Bias Between an Object and Its Related Gender	Oct 29, 2023	Image Captioning	CodeCode Available
Aligning where to see and what to tell: image caption with region-based attention and scene factorization	Jun 20, 2015	Image Captioning	CodeCode Available
Variational Transformer: A Framework Beyond the Trade-off between Accuracy and Diversity for Image Captioning	May 28, 2022	DiversityImage Captioning	CodeCode Available
Enhancing Descriptive Image Captioning with Natural Language Inference	Aug 1, 2021	DescriptiveImage Captioning	CodeCode Available
End-to-End Instance Segmentation with Recurrent Attention	May 30, 2016	Autonomous DrivingImage Captioning	CodeCode Available
Automatic Report Generation for Histopathology images using pre-trained Vision Transformers and BERT	Dec 3, 2023	Caption GenerationDecoder	CodeCode Available
Learning to Caption Images through a Lifetime by Asking Questions	Dec 1, 2018	Active LearningImage Captioning	CodeCode Available
End-to-end Image Captioning Exploits Distributional Similarity in Multimodal Space	Nov 1, 2018	Image CaptioningText Generation	CodeCode Available
End-to-End Attention-based Image Captioning	Apr 30, 2021	Image CaptioningTranslation	CodeCode Available
LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation	Sep 4, 2021	Caption GenerationImage Captioning	CodeCode Available
Large Vision-Language Models for Knowledge-Grounded Data Annotation of Memes	Jan 23, 2025	Emotion ClassificationImage Captioning	CodeCode Available
LineCap: Line Charts for Data Visualization Captioning Models	Jul 15, 2022	Data VisualizationDeep Learning	CodeCode Available
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens	Sep 28, 2023	Cross-Modal RetrievalGPU	CodeCode Available
Language Models as Knowledge Bases for Visual Word Sense Disambiguation	Oct 3, 2023	Image CaptioningMultiple-choice	CodeCode Available
TIGEr: Text-to-Image Grounding for Image Caption Evaluation	Sep 4, 2019	Image CaptioningText Matching	CodeCode Available

Show:10 25 50

← PrevPage 31 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified