Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 1878 papers

Title	Date	Tasks	Status
PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology	Aug 13, 2024	Image Captioning	—Unverified
Paying More Attention to Saliency: Image Captioning with Saliency and Context Attention	Jun 26, 2017	Image CaptioningSaliency Prediction	—Unverified
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis	Dec 4, 2024	Image CaptioningImage Description	—Unverified
PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training	Mar 9, 2025	HallucinationImage Captioning	—Unverified
phi-LSTM: A Phrase-based Hierarchical LSTM Model for Image Captioning	Aug 20, 2016	Image CaptioningImage Description	—Unverified
Phrase-based Image Captioning	Feb 12, 2015	DescriptiveImage Captioning	—Unverified
Phrase-based Image Captioning with Hierarchical LSTM Model	Nov 11, 2017	DecoderImage Captioning	—Unverified
Physically Grounded Vision-Language Models for Robotic Manipulation	Sep 5, 2023	Image CaptioningLanguage Modelling	—Unverified
PICS: Pipeline for Image Captioning and Search	Feb 1, 2024	Asset ManagementImage Captioning	—Unverified
Pixels to Prose: Understanding the art of Image Captioning	Aug 28, 2024	DescriptiveImage Captioning	—Unverified
Pointing Novel Objects in Image Captioning	Apr 25, 2019	DecoderImage Captioning	—Unverified
PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation	Sep 10, 2024	Image CaptioningImage Generation	—Unverified
Pragmatically Informative Image Captioning with Character-Level Inference	Apr 15, 2018	Image CaptioningRolling Shutter Correction	—Unverified
Predicting Visual Futures with Image Captioning and Pre-Trained Language Models	Jun 16, 2021	Image Captioning	—Unverified
Predicting Word Learning in Children from the Performance of Computer Vision Systems	Jul 7, 2022	Image Captioning	—Unverified
Predictive linguistic cues for fake news: a societal artificial intelligence problem	Nov 26, 2022	AttributeImage Captioning	—Unverified
Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image Captioning	Sep 10, 2023	DenoisingDiversity	—Unverified
PreSTU: Pre-Training for Scene-Text Understanding	Sep 12, 2022	DecoderImage Captioning	—Unverified
PR-MCS: Perturbation Robust Metric for MultiLingual Image Captioning	Mar 15, 2023	Image Captioning	—Unverified
Probing Cross-modal Semantics Alignment Capability from the Textual Perspective	Oct 18, 2022	Image CaptioningSentence	—Unverified
Progress-Aware Video Frame Captioning	Dec 3, 2024	Image CaptioningVideo Captioning	—Unverified
Prompt-based Learning for Unpaired Image Captioning	May 26, 2022	Image CaptioningImage-text Retrieval	—Unverified
PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3	Jan 1, 2023	Image CaptioningQuestion Answering	—Unverified
PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks	Jan 30, 2023	Crowd CountingData Augmentation	—Unverified
Prompt Tuning for Generative Multimodal Pretrained Models	Aug 4, 2022	Image CaptioningVisual Entailment	—Unverified
Prophet Attention: Predicting Attention with Future Attention	Dec 1, 2020	Image Captioning	—Unverified
Prophet Attention: Predicting Attention with Future Attention for Image Captioning	Oct 19, 2022	Image Captioning	—Unverified
PunchBench: Benchmarking MLLMs in Multimodal Punchline Comprehension	Dec 16, 2024	BenchmarkingImage Captioning	—Unverified
Putting Humans in the Image Captioning Loop	Jun 6, 2023	Image Captioning	—Unverified
Quality-agnostic Image Captioning to Safely Assist People with Vision Impairment	Apr 28, 2023	Data AugmentationImage Captioning	—Unverified
Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval	Oct 2, 2024	Image CaptioningRetrieval	—Unverified
RadTex: Learning Efficient Radiograph Representations from Text Reports	Aug 5, 2022	ClassificationDecoder	—Unverified
RAVEN: Multitask Retrieval Augmented Vision-Language Learning	Jun 27, 2024	Image CaptioningRAG	—Unverified
Reading Radiology Imaging Like The Radiologist	Jul 12, 2023	Image CaptioningRetrieval	—Unverified
Recurrent Fusion Network for Image Captioning	Jul 26, 2018	DecoderImage Captioning	—Unverified
Recurrent Image Captioner: Describing Images with Spatial-Invariant Transformation and Attention Filtering	Dec 15, 2016	DecoderImage Captioning	—Unverified
Recurrent Models for Situation Recognition	Mar 18, 2017	Grounded Situation RecognitionHuman-Object Interaction Detection	—Unverified
Recurrent Relational Memory Network for Unsupervised Image Captioning	Jun 24, 2020	Computational EfficiencyImage Captioning	—Unverified
Redemption Score: An Evaluation Framework to Rank Image Captions While Redeeming Image Semantics and Language Pragmatics	May 22, 2025	Image Captioningtext similarity	—Unverified
Re-evaluating Automatic Metrics for Image Captioning	Dec 22, 2016	Image Captioning	—Unverified
RefineCap: Concept-Aware Refinement for Image Captioning	Sep 8, 2021	DecoderDescriptive	—Unverified
Reflective Decoding Network for Image Captioning	Aug 30, 2019	DecoderImage Captioning	—Unverified
Reinforcing an Image Caption Generator Using Off-Line Human Feedback	Nov 21, 2019	Image CaptioningReinforcement Learning	—Unverified
Reinforcing Pre-trained Models Using Counterfactual Images	Jun 19, 2024	Classificationcounterfactual	—Unverified
Relational Reasoning using Prior Knowledge for Visual Captioning	Jun 4, 2019	Image Captioningobject-detection	—Unverified
Repurposing Existing Deep Networks for Caption and Aesthetic-Guided Image Cropping	Jan 7, 2022	Image CaptioningImage Cropping	—Unverified
Resampled Datasets Are Not Enough: Mitigating Societal Bias Beyond Single Attributes	Jul 4, 2024	Image Captioningimage-classification	—Unverified
Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization	May 24, 2022	Image CaptioningOut-of-Distribution Generalization	—Unverified
Rethinking the Form of Latent States in Image Captioning	Jul 26, 2018	Caption GenerationForm	—Unverified
VrR-VG: Refocusing Visually-Relevant Relationships	Feb 1, 2019	Image CaptioningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 23 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified