Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1500 of 1878 papers

Title	Date	Tasks	Status
MAT: A Multimodal Attentive Translator for Image Captioning	Feb 18, 2017	Caption GenerationImage Captioning	—Unverified
Maybe you are looking for CroQS: Cross-modal Query Suggestion for Text-to-Image Retrieval	Dec 18, 2024	Cross-Modal RetrievalImage Captioning	—Unverified
Measuring directional bias amplification in image captions using predictability	Mar 10, 2025	Image Captioningimage-classification	—Unverified
Measuring Machine Intelligence Through Visual Question Answering	Aug 31, 2016	Image CaptioningQuestion Answering	—Unverified
Measuring Representational Harms in Image Captioning	Jun 14, 2022	FairnessImage Captioning	—Unverified
MedBLIP: Fine-tuning BLIP for Medical Image Captioning	May 20, 2025	DecoderImage Captioning	—Unverified
Medical Image Captioning via Generative Pretrained Transformers	Sep 28, 2022	Caption GenerationDescriptive	—Unverified
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding	Jan 30, 2025	BenchmarkingDecision Making	—Unverified
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification	May 29, 2024	HallucinationImage Captioning	—Unverified
Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference	Apr 13, 2025	Bayesian InferenceImage Captioning	—Unverified
MIML-FCN+: Multi-instance Multi-label Learning via Fully Convolutional Networks with Privileged Information	Feb 28, 2017	Image CaptioningMulti-Label Learning	—Unverified
Mindstorms in Natural Language-Based Societies of Mind	May 26, 2023	3D GenerationImage Captioning	—Unverified
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified
Mitigating Image Captioning Hallucinations in Vision-Language Models	May 6, 2025	HallucinationHallucination Evaluation	—Unverified
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy	Mar 26, 2025	HallucinationImage Captioning	—Unverified
Mitigating Perception Bias: A Training-Free Approach to Enhance LMM for Image Quality Assessment	Nov 19, 2024	Image CaptioningImage Quality Assessment	—Unverified
MITRE at SemEval-2017 Task 1: Simple Semantic Similarity	Aug 1, 2017	BIG-bench Machine LearningImage Captioning	—Unverified
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning	Sep 9, 2024	Federated LearningImage Captioning	—Unverified
MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages	Oct 14, 2024	ArticlesDescriptive	—Unverified
MM-PhyRLHF: Reinforcement Learning Framework for Multimodal Physics Question-Answering	Apr 19, 2024	ChatbotDomain Adaptation	—Unverified
MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training	Nov 28, 2023	Image CaptioningTransfer Learning	—Unverified
MoColl: Agent-Based Specific and General Model Collaboration for Image Captioning	Jan 3, 2025	DiagnosticGeneral Knowledge	—Unverified
Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection	Aug 5, 2024	DescriptiveImage Captioning	—Unverified
Model Tailor: Mitigating Catastrophic Forgetting in Multi-modal Large Language Models	Feb 19, 2024	Image CaptioningQuestion Answering	—Unverified
Module-wise Adaptive Distillation for Multimodality Foundation Models	Oct 6, 2023	Image CaptioningThompson Sampling	—Unverified
Molecular Identification from AFM images using the IUPAC Nomenclature and Attribute Multimodal Recurrent Neural Networks	May 1, 2022	AttributeImage Captioning	—Unverified
MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild	Nov 17, 2024	Active LearningImage Captioning	—Unverified
MORAL: A Multimodal Reinforcement Learning Framework for Decision Making in Autonomous Laboratories	Apr 4, 2025	Decision MakingImage Captioning	—Unverified
More for Less: Compact Convolutional Transformers Enable Robust Medical Image Classification with Limited Data	Jul 1, 2023	Image Captioningimage-classification	—Unverified
More Than Just Attention: Improving Cross-Modal Attentions with Contrastive Constraints for Image-Text Matching	May 20, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
MRRC: Multiple Role Representation Crossover Interpretation for Image Captioning With R-CNN Feature Distribution Composition (FDC)	Feb 15, 2020	DecoderImage Captioning	—Unverified
MSCap: Multi-Style Image Captioning With Unpaired Stylized Text	Jun 1, 2019	Image CaptioningSentence	—Unverified
MSR-VTT: A Large Video Description Dataset for Bridging Video and Language	Jun 1, 2016	Image CaptioningSentence	—Unverified
Multi-Image Summarization: Textual Summary from a Set of Cohesive Images	Jun 15, 2020	DescriptiveImage Captioning	—Unverified
Multi-layered Image Representation for Image Interpretation	Aug 1, 2014	Image CaptioningImage Retrieval	—Unverified
Multi-Level Policy and Reward Reinforcement Learning for Image Captioning	Jun 15, 2018	Image CaptioningNatural Language Understanding	—Unverified
Multimodal Attention for Neural Machine Translation	Sep 13, 2016	Image CaptioningMachine Translation	—Unverified
Multimodal Differential Network for Visual Question Generation	Oct 1, 2018	Image CaptioningNatural Questions	—Unverified
Multi-Modal Generative Embedding Model	May 29, 2024	Caption GenerationCross-Modal Retrieval	—Unverified
Multimodal Image Captioning for Marketing Analysis	Feb 6, 2018	Image CaptioningMarketing	—Unverified
Multi-Modal Image Captioning for the Visually Impaired	May 17, 2021	Image Captioning	—Unverified
Multimodal Learned Sparse Retrieval for Image Suggestion	Feb 12, 2024	Image CaptioningRetrieval	—Unverified
Multimodal Learning: Are Captions All You Need?	Nov 16, 2021	AllImage Captioning	—Unverified
Multimodal Machine Learning: Integrating Language, Vision and Speech	Jul 1, 2017	Audio-Visual Speech RecognitionBIG-bench Machine Learning	—Unverified
Multimodal Machine Translation through Visuals and Speech	Nov 28, 2019	Image CaptioningMachine Translation	—Unverified
Multimodal Named Entity Disambiguation for Noisy Social Media Posts	Jul 1, 2018	Entity DisambiguationImage Captioning	—Unverified
Multimodal Neurons in Pretrained Text-Only Transformers	Aug 3, 2023	Image CaptioningImage to text	—Unverified
Multimodal Prompt Learning for Product Title Generation with Extremely Limited Labels	Jul 5, 2023	Image CaptioningPrompt Learning	—Unverified
Multimodal Quasi-AutoRegression: Forecasting the visual popularity of new fashion products	Apr 8, 2022	Image Captioningimage-classification	—Unverified
Multi-modal reward for visual relationships-based image captioning	Mar 19, 2023	Caption GenerationDeep Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 30 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified