Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 1878 papers

Title	Date	Tasks	Status
Are metrics measuring what they should? An evaluation of image captioning task metrics	Jul 4, 2022	Image Captioning	—Unverified
A Review of Multi-Modal Large Language and Vision Models	Mar 28, 2024	Image CaptioningPrompt Engineering	—Unverified
ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding	May 9, 2025	Image CaptioningObject Recognition	—Unverified
A Scaled Encoder Decoder Network for Image Captioning in Hindi	Dec 1, 2021	DecoderDeep Learning	—Unverified
A Self-Boosting Framework for Automated Radiographic Report Generation	Jun 19, 2021	Image CaptioningImage-text matching	—Unverified
A Self-Explainable Stylish Image Captioning Framework via Multi-References	Oct 20, 2021	Image Captioning	—Unverified
A Self-Guided Framework for Radiology Report Generation	Jun 19, 2022	Image CaptioningMedical Report Generation	—Unverified
A sequential guiding network with attention for image captioning	Nov 1, 2018	DecoderImage Captioning	—Unverified
As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?	Mar 19, 2024	Adversarial AttackImage Captioning	—Unverified
Assessing Image Quality Issues for Real-World Problems	Mar 27, 2020	Image CaptioningQuestion Answering	—Unverified
Assisting Scene Graph Generation with Self-Supervision	Aug 8, 2020	Graph GenerationImage Captioning	—Unverified
Assistive Image Annotation Systems with Deep Learning and Natural Language Capabilities: A Review	Jun 28, 2024	Active LearningImage Captioning	—Unverified
Astrea: A MOE-based Visual Understanding Model with Progressive Alignment	Mar 12, 2025	Contrastive LearningCross-Modal Retrieval	—Unverified
AstroLLaVA: towards the unification of astronomical data and natural language	Apr 11, 2025	AstronomyImage Captioning	—Unverified
A Survey of Evaluation Metrics Used for NLG Systems	Aug 27, 2020	Image Captioningnlg evaluation	—Unverified
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
A Survey on Large Language Models from Concept to Implementation	Mar 27, 2024	ChatbotImage Captioning	—Unverified
Asynchronous Evolution of Deep Neural Network Architectures	Aug 8, 2023	Evolutionary AlgorithmsImage Captioning	—Unverified
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning	Sep 27, 2024	DecoderFairness	—Unverified
A Thorough Review on Recent Deep Learning Methodologies for Image Captioning	Jul 28, 2021	Caption GenerationDescriptive	—Unverified
A Toolchain for Comprehensive Audio/Video Analysis Using Deep Learning Based Multimodal Approach (A use case of riot or violent context detection)	May 2, 2024	Acoustic Scene ClassificationEvent Detection	—Unverified
Attend More Times for Image Captioning	Dec 8, 2018	Image Captioning	—Unverified
Attention-based Multimodal Neural Machine Translation	Aug 1, 2016	Image CaptioningMachine Translation	—Unverified
Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation	Jun 3, 2025	Caption GenerationImage Captioning	—Unverified
Attention Beam: An Image Captioning Approach	Nov 3, 2020	DecoderImage Captioning	—Unverified
Attention Correctness in Neural Image Captioning	May 31, 2016	Image Captioning	—Unverified
Attention Strategies for Multi-Source Sequence-to-Sequence Learning	Jul 1, 2017	Automatic Post-EditingImage Captioning	—Unverified
Attentive Language Models	Nov 1, 2017	Image CaptioningMachine Translation	—Unverified
Attentive Tensor Product Learning	Feb 20, 2018	Constituency ParsingDeep Learning	—Unverified
Attr2Style: A Transfer Learning Approach for Inferring Fashion Styles via Apparel Attributes	Aug 26, 2020	AttributeImage Captioning	—Unverified
AttS2S-VC: Sequence-to-Sequence Voice Conversion with Attention and Context Preservation Mechanisms	Nov 9, 2018	GPUImage Captioning	—Unverified
ATZSL: Defensive Zero-Shot Recognition in the Presence of Adversaries	Oct 24, 2019	Image CaptioningObject Recognition	—Unverified
Augmenting Image Question Answering Dataset by Exploiting Image Captions	May 1, 2018	Data AugmentationImage Captioning	—Unverified
A Unified Sequence Interface for Vision Tasks	Jun 15, 2022	Image CaptioningInstance Segmentation	—Unverified
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark	Oct 4, 2024	Image CaptioningVideo Understanding	—Unverified
AutoCaption: Image Captioning with Neural Architecture Search	Dec 16, 2020	DecoderImage Captioning	—Unverified
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language	Jun 28, 2024	Image Captioning	—Unverified
Automated Audio Captioning with Recurrent Neural Networks	Jun 30, 2017	Audio captioningDecoder	—Unverified
Automated Image Captioning for Rapid Prototyping and Resource Constrained Environments	Jun 4, 2016	Image CaptioningWord Embeddings	—Unverified
Automated Report Generation for Lung Cytological Images Using a CNN Vision Classifier and Multiple-Transformer Text Decoders: Preliminary Study	Mar 26, 2024	DecoderImage Captioning	—Unverified
Automatic Myanmar Image Captioning using CNN and LSTM-Based Language Model	May 1, 2020	Image CaptioningLanguage Modeling	—Unverified
Automatic Radiology Report Generation based on Multi-view Image Fusion and Medical Concept Enrichment	Jul 22, 2019	DecoderDescriptive	—Unverified
Auto-Parsing Network for Image Captioning and Visual Question Answering	Aug 24, 2021	Image CaptioningQuestion Answering	—Unverified
A vision-grounded dataset for predicting typical locations for verbs	May 1, 2018	Common Sense ReasoningImage Captioning	—Unverified
A Visually-Grounded Parallel Corpus with Phrase-to-Region Linking	May 1, 2020	Image CaptioningMachine Translation	—Unverified
A Weighted Multi-Criteria Decision Making Approach for Image Captioning	Mar 17, 2019	Decision MakingImage Captioning	—Unverified
AZMAT: Sentence Similarity Using Associative Matrices	Jun 1, 2015	Image CaptioningSemantic Textual Similarity	—Unverified
Backdooring Vision-Language Models with Out-Of-Distribution Data	Oct 2, 2024	Image CaptioningImage to text	—Unverified
Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing	Oct 23, 2024	Adversarial AttackBackdoor Attack	—Unverified

Show:10 25 50

← PrevPage 25 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified