Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 1878 papers

Title	Date	Tasks	Status
BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs	Jul 3, 2024	Image CaptioningImage Generation	—Unverified
Beam-Guided Knowledge Replay for Knowledge-Rich Image Captioning using Vision-Language Model	May 29, 2025	Image CaptioningLanguage Modeling	—Unverified
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified
Bench-Marking And Improving Arabic Automatic Image Captioning Through The Use Of Multi-Task Learning Paradigm	Feb 11, 2022	Image CaptioningMulti-Task Learning	—Unverified
Better Captioning with Sequence-Level Exploration	Mar 8, 2020	Image Captioning	—Unverified
Better Reasoning with Less Data: Enhancing VLMs Through Unified Modality Scoring	Jun 10, 2025	Image Captioning	—Unverified
Better Understanding Hierarchical Visual Relationship for Image Caption	Dec 4, 2019	DecoderImage Captioning	—Unverified
Beyond Caption To Narrative: Video Captioning With Multiple Sentences	May 18, 2016	Action LocalizationImage Captioning	—Unverified
Beyond Holistic Object Recognition: Enriching Image Understanding with Part States	Dec 15, 2016	Human-Object Interaction DetectionImage Captioning	—Unverified
Beyond Human Vision: The Role of Large Vision Language Models in Microscope Image Analysis	May 1, 2024	Image CaptioningQuestion Answering	—Unverified
BFGAN: Backward and Forward Generative Adversarial Networks for Lexically Constrained Sentence Generation	Jun 21, 2018	Image CaptioningMachine Translation	—Unverified
Bidimensional Leaderboards: Generate and Evaluate Language Hand in Hand	Jan 16, 2022	Image CaptioningMachine Translation	—Unverified
Bidirectional Awareness Induction in Autoregressive Seq2Seq Models	Aug 25, 2024	Image CaptioningMachine Translation	—Unverified
Bidirectional Beam Search: Forward-Backward Inference in Neural Sequence Models for Fill-in-the-Blank Image Captioning	May 24, 2017	Image CaptioningSentence	—Unverified
Improving Medical Visual Representations via Radiology Report Generation	Oct 30, 2023	Contrastive LearningDecoder	—Unverified
Evaluating Text-to-Image Matching using Binary Image Selection (BISON)	Jan 19, 2019	Image CaptioningImage Retrieval	—Unverified
BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding	Sep 12, 2024	Contrastive LearningImage Captioning	—Unverified
BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions	Nov 12, 2024	DescriptiveImage Captioning	—Unverified
Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of Downstream Tasks	Oct 26, 2022	Image CaptioningLanguage Modeling	—Unverified
Boosted Attention: Leveraging Human Attention for Image Captioning	Mar 18, 2019	Image Captioning	—Unverified
Boost Image Captioning with Knowledge Reasoning	Nov 2, 2020	DecoderImage Captioning	—Unverified
Boosting Cross-task Transferability of Adversarial Patches with Visual Relations	Apr 11, 2023	Image CaptioningObject Recognition	—Unverified
Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph	Jul 26, 2021	Graph AttentionImage Captioning	—Unverified
Boosting Image Captioning with Attributes	Nov 5, 2016	Image Captioning	—Unverified
Bornon: Bengali Image Captioning with Transformer-based Deep learning approach	Sep 11, 2021	DecoderDeep Learning	—Unverified
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images	Mar 13, 2023	Common Sense ReasoningExplanation Generation	—Unverified
Bridge the Gap: High-level Semantic Planning for Image Captioning	Dec 1, 2020	Image CaptioningVocal Bursts Intensity Prediction	—Unverified
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings	Sep 12, 2024	FADImage Captioning	—Unverified
Bringing back simplicity and lightliness into neural image captioning	Oct 15, 2018	Caption GenerationImage Captioning	—Unverified
Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning	Sep 23, 2024	Image CaptioningSemantic Similarity	—Unverified
B-SCST: Bayesian Self-Critical Sequence Training for Image Captioning	Apr 6, 2020	Bayesian InferenceImage Captioning	—Unverified
Building Safe and Reliable AI systems for Safety Critical Tasks with Vision-Language Processing	Aug 6, 2023	Image CaptioningOut of Distribution (OOD) Detection	—Unverified
Building Trustworthy Multimodal AI: A Review of Fairness, Transparency, and Ethics in Vision-Language Tasks	Apr 14, 2025	EthicsFairness	—Unverified
CaLcs: Continuously Approximating Longest Common Subsequence for Sequence Level Optimization	Oct 1, 2018	Abstractive Text SummarizationImage Captioning	—Unverified
Can Neural Image Captioning be Controlled via Forced Attention?	Nov 10, 2019	Image CaptioningText Generation	—Unverified
Can Prompt Learning Benefit Radiology Report Generation?	Aug 30, 2023	Image CaptioningPrompt Engineering	—Unverified
CANVASEMB: Learning Layout Representation with Large-scale Pre-training for Graphic Design	Jan 1, 2021	Image CaptioningMulti-Task Learning	—Unverified
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era	Mar 16, 2025	BenchmarkingImage Captioning	—Unverified
CapOnImage: Context-driven Dense-Captioning on Image	Apr 27, 2022	Dense CaptioningDiversity	—Unverified
CapSal: Leveraging Captioning to Boost Semantics for Salient Object Detection	Jun 1, 2019	Image Captioningobject-detection	—Unverified
CAPTION: Correction by Analyses, POS-Tagging and Interpretation of Objects using only Nouns	Oct 2, 2020	Image Captioningobject-detection	—Unverified
Captioning Images Taken by People Who Are Blind	Feb 20, 2020	DiversityImage Captioning	—Unverified
Captioning Images with Novel Objects via Online Vocabulary Expansion	Mar 6, 2020	Image CaptioningWord Embeddings	—Unverified
Captions Are Worth a Thousand Words: Enhancing Product Retrieval with Pretrained Image-to-Text Models	Feb 13, 2024	Image CaptioningImage to text	—Unverified
CapWAP: Captioning with a Purpose	Nov 9, 2020	Image CaptioningQuestion Answering	—Unverified
CapWAP: Image Captioning with a Purpose	Nov 1, 2020	Image CaptioningQuestion Answering	—Unverified
Categorizing and Inferring the Relationship between the Text and Image of Twitter Posts	Jul 1, 2019	Image Captioning	—Unverified
Categorizing Concepts With Basic Level for Vision-to-Language	Jun 1, 2018	ClusteringImage Captioning	—Unverified
Causal reasoning in typical computer vision tasks	Jul 26, 2023	Autonomous DrivingDeep Learning	—Unverified
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	Dec 3, 2024	Image CaptioningQuantization	—Unverified

Show:10 25 50

← PrevPage 26 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified