Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 1878 papers

Title	Date	Tasks	Status
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness	Jul 2, 2024	Image CaptioningQuestion Answering	—Unverified
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks	Nov 24, 2024	Image CaptioningNatural Language Understanding	—Unverified
Challenges in Region-Specific Image Captioning: A Deep Learning Approach	Nov 16, 2021	Deep LearningImage Captioning	—Unverified
Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity	Jun 28, 2023	BenchmarkingImage Captioning	—Unverified
CHAM: action recognition using convolutional hierarchical attention model	May 9, 2017	Action RecognitionImage Captioning	—Unverified
Cheap-fake Detection with LLM using Prompt Engineering	Jun 5, 2023	Image CaptioningImage Generation	—Unverified
Chittron: An Automatic Bangla Image Captioning System	Sep 2, 2018	Caption GenerationImage Captioning	—Unverified
CIC: A Framework for Culturally-Aware Image Captioning	Feb 8, 2024	DescriptiveImage Captioning	—Unverified
CLAIR: Evaluating Image Captions with Large Language Models	Oct 19, 2023	DiversityImage Captioning	—Unverified
CLAMP: Contrastive LAnguage Model Prompt-tuning	Dec 4, 2023	Contrastive LearningImage Captioning	—Unverified
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification	Oct 12, 2024	Image CaptioningPerson Re-Identification	—Unverified
Clue: Cross-modal Coherence Modeling for Caption Generation	May 2, 2020	Caption Generationcontrollable image captioning	—Unverified
COCO is "ALL'' You Need for Visual Instruction Fine-tuning	Jan 17, 2024	AllImage Captioning	—Unverified
COCONut-PanCap: Joint Panoptic Segmentation and Grounded Captions for Fine-Grained Understanding and Generation	Feb 4, 2025	Image CaptioningPanoptic Segmentation	—Unverified
Cold Fusion: Training Seq2Seq Models Together with Language Models	Aug 21, 2017	Image CaptioningLanguage Modeling	—Unverified
Combine to Describe: Evaluating Compositional Generalization in Image Captioning	May 1, 2022	Image Captioning	—Unverified
ComicsPAP: understanding comic strips by picking the correct panel	Mar 11, 2025	Image CaptioningVisual Question Answering (VQA)	—Unverified
Comparative study of Transformer and LSTM Network with attention mechanism on Image Captioning	Mar 5, 2023	Image Captioning	—Unverified
Compare and Reweight: Distinctive Image Captioning Using Similar Images Sets	Jul 14, 2020	Image CaptioningRetrieval	—Unverified
Comparing Recurrent and Convolutional Architectures for English-Hindi Neural Machine Translation	Nov 1, 2017	DecoderImage Captioning	—Unverified
Competence-based Multimodal Curriculum Learning for Medical Report Generation	Jun 24, 2022	Image CaptioningMedical Report Generation	—Unverified
Filter & Align: Leveraging Human Knowledge to Curate Image-Text Data	Dec 11, 2023	Image CaptioningImage-text Retrieval	—Unverified
Compressed Image Captioning using CNN-based Encoder-Decoder Framework	Apr 28, 2024	DecoderImage Captioning	—Unverified
Compressing Visual-linguistic Model via Knowledge Distillation	Apr 5, 2021	Image CaptioningKnowledge Distillation	—Unverified
Trust It or Not: Confidence-Guided Automatic Radiology Report Generation	Jun 21, 2021	Decision MakingImage Captioning	—Unverified
Connecting Language and Vision to Actions	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified
Consensus Graph Representation Learning for Better Grounded Image Captioning	Dec 2, 2021	Graph Representation LearningHallucination	—Unverified
Consistency Model is an Effective Posterior Sample Approximation for Diffusion Inverse Solvers	Feb 9, 2024	Image CaptioningSemantic Segmentation	—Unverified
Consistent Multiple Sequence Decoding	Apr 2, 2020	DecoderDiversity	—Unverified
Context-Aware Group Captioning via Self-Attention and Contrastive Features	Apr 7, 2020	Image Captioning	—Unverified
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity	Mar 31, 2025	Image CaptioningOptical Character Recognition	—Unverified
Contextual Emotion Estimation from Image Captions	Sep 22, 2023	Image CaptioningLanguage Modelling	—Unverified
Contextual Emotion Recognition using Large Vision Language Models	May 14, 2024	Decision MakingEmotion Recognition	—Unverified
Contextualized Keyword Representations for Multi-modal Retinal Image Captioning	Apr 26, 2021	AvgImage Captioning	—Unverified
Contextual Memory Trees	Jul 17, 2018	General ClassificationImage Captioning	—Unverified
Continuous multilinguality with language vectors	Apr 1, 2017	Image CaptioningLanguage Modeling	—Unverified
Contrastive Learning for Image Captioning	Oct 6, 2017	Contrastive LearningImage Captioning	—Unverified
Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder	Jun 29, 2021	Image CaptioningRepresentation Learning	—Unverified
Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations	Mar 14, 2022	Image CaptioningSemantic Textual Similarity	—Unverified
Control Image Captioning Spatially and Temporally	Aug 1, 2021	Contrastive LearningImage Captioning	—Unverified
Controllable Image Captioning	Apr 28, 2022	controllable image captioningDecoder	—Unverified
Controllable Image Captioning via Prompting	Dec 4, 2022	controllable image captioningImage Captioning	—Unverified
Controlled Caption Generation for Images Through Adversarial Attacks	Jul 7, 2021	Caption GenerationImage Captioning	—Unverified
Convolutional Prototype Learning for Zero-Shot Recognition	Oct 22, 2019	AttributeImage Captioning	—Unverified
Cooperative image captioning	Jul 26, 2019	Image Captioning	—Unverified
Correlation between Similarity Measures for Inter-Language Linked Wikipedia Articles	May 1, 2012	ArticlesImage Captioning	—Unverified
CPTR: Full Transformer Network for Image Captioning	Jan 26, 2021	DecoderImage Captioning	—Unverified
CropCap: Embedding Visual Cross-Partition Dependency for Image Captioning	Oct 27, 2023	Image Captioning	—Unverified
Cross2StrA: Unpaired Cross-lingual Image Captioning with Cross-lingual Cross-modal Structure-pivoted Alignment	May 20, 2023	Image CaptioningTranslation	—Unverified
CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models	May 22, 2024	BenchmarkingHallucination	—Unverified

Show:10 25 50

← PrevPage 27 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified