Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1878 papers

Title	Date	Tasks	Status
An Attempt towards Interpretable Audio-Visual Video Captioning	Dec 7, 2018	Audio captioningAudio-Visual Video Captioning	—Unverified
Flowing from Words to Pixels: A Framework for Cross-Modality Evolution	Dec 19, 2024	Depth EstimationImage Captioning	—Unverified
Automatic Myanmar Image Captioning using CNN and LSTM-Based Language Model	May 1, 2020	Image CaptioningLanguage Modeling	—Unverified
Cooperative image captioning	Jul 26, 2019	Image Captioning	—Unverified
Automated Report Generation for Lung Cytological Images Using a CNN Vision Classifier and Multiple-Transformer Text Decoders: Preliminary Study	Mar 26, 2024	DecoderImage Captioning	—Unverified
Convolutional Prototype Learning for Zero-Shot Recognition	Oct 22, 2019	AttributeImage Captioning	—Unverified
Flowing from Words to Pixels: A Noise-Free Framework for Cross-Modality Evolution	Jan 1, 2025	Depth EstimationImage Captioning	—Unverified
Analysis of Convolutional Decoder for Image Caption Generation	Mar 8, 2021	Caption GenerationData Augmentation	—Unverified
Controlled Caption Generation for Images Through Adversarial Attacks	Jul 7, 2021	Caption GenerationImage Captioning	—Unverified
A Deep Neural Framework for Image Caption Generation Using GRU-Based Attention Mechanism	Mar 3, 2022	Caption GenerationDecoder	—Unverified
Controllable Image Captioning via Prompting	Dec 4, 2022	controllable image captioningImage Captioning	—Unverified
Controllable Image Captioning	Apr 28, 2022	controllable image captioningDecoder	—Unverified
Automated Image Captioning for Rapid Prototyping and Resource Constrained Environments	Jun 4, 2016	Image CaptioningWord Embeddings	—Unverified
Control Image Captioning Spatially and Temporally	Aug 1, 2021	Contrastive LearningImage Captioning	—Unverified
Automated Audio Captioning with Recurrent Neural Networks	Jun 30, 2017	Audio captioningDecoder	—Unverified
Fluent and Accurate Image Captioning with a Self-Trained Reward Model	Aug 29, 2024	Image CaptioningSpecificity	—Unverified
Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations	Mar 14, 2022	Image CaptioningSemantic Textual Similarity	—Unverified
A Multimodal Memes Classification: A Survey and Open Research Issues	Sep 17, 2020	ClassificationGeneral Classification	—Unverified
Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder	Jun 29, 2021	Image CaptioningRepresentation Learning	—Unverified
Contrastive Learning for Image Captioning	Oct 6, 2017	Contrastive LearningImage Captioning	—Unverified
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language	Jun 28, 2024	Image Captioning	—Unverified
A Deep Decoder Structure Based on WordEmbedding Regression for An Encoder-Decoder Based Model for Image Captioning	Jun 26, 2019	DecoderImage Captioning	—Unverified
AutoCaption: Image Captioning with Neural Architecture Search	Dec 16, 2020	DecoderImage Captioning	—Unverified
Continuous multilinguality with language vectors	Apr 1, 2017	Image CaptioningLanguage Modeling	—Unverified
A Multimodal Approach for Cross-Domain Image Retrieval	Mar 22, 2024	Image CaptioningImage Retrieval	—Unverified
Abstractive Document Summarization with a Graph-Based Attentional Neural Model	Jul 1, 2017	Abstractive Text SummarizationDocument Summarization	—Unverified
Fine-Grained Video Captioning through Scene Graph Consolidation	Feb 23, 2025	Caption GenerationImage Captioning	—Unverified
Contextual Memory Trees	Jul 17, 2018	General ClassificationImage Captioning	—Unverified
Contextualized Keyword Representations for Multi-modal Retinal Image Captioning	Apr 26, 2021	AvgImage Captioning	—Unverified
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark	Oct 4, 2024	Image CaptioningVideo Understanding	—Unverified
Contextual Emotion Recognition using Large Vision Language Models	May 14, 2024	Decision MakingEmotion Recognition	—Unverified
Contextual Emotion Estimation from Image Captions	Sep 22, 2023	Image CaptioningLanguage Modelling	—Unverified
A Unified Sequence Interface for Vision Tasks	Jun 15, 2022	Image CaptioningInstance Segmentation	—Unverified
American == White in Multimodal Language-and-Image AI	Jul 1, 2022	Image CaptioningQuestion Answering	—Unverified
Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity	Mar 31, 2025	Image CaptioningOptical Character Recognition	—Unverified
Augmenting Image Question Answering Dataset by Exploiting Image Captions	May 1, 2018	Data AugmentationImage Captioning	—Unverified
A Dataset and Reranking Method for Multimodal MT of User-Generated Image Captions	Mar 1, 2018	Image CaptioningMachine Translation	—Unverified
Context-Aware Group Captioning via Self-Attention and Contrastive Features	Apr 7, 2020	Image Captioning	—Unverified
A Medical Semantic-Assisted Transformer for Radiographic Report Generation	Aug 22, 2022	Image CaptioningMedical Report Generation	—Unverified
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity	Nov 23, 2024	AttributeCross-Modal Retrieval	—Unverified
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing	Feb 23, 2024	Image CaptioningImage Retrieval	—Unverified
Focused Evaluation for Image Description with Binary Forced-Choice Tasks	Aug 1, 2016	Image CaptioningImage Description	—Unverified
Generating Triples with Adversarial Networks for Scene Graph Construction	Feb 7, 2018	Attributegraph construction	—Unverified
A Mathematical Theory of Deep Convolutional Neural Networks for Feature Extraction	Dec 19, 2015	Atari GamesImage Captioning	—Unverified
ATZSL: Defensive Zero-Shot Recognition in the Presence of Adversaries	Oct 24, 2019	Image CaptioningObject Recognition	—Unverified
Feature Fusion Effects of Tensor Product Representation on (De)Compositional Network for Caption Generation for Images	Dec 17, 2018	Caption GenerationImage Captioning	—Unverified
Consistent Multiple Sequence Decoding	Apr 2, 2020	DecoderDiversity	—Unverified
Consistency Model is an Effective Posterior Sample Approximation for Diffusion Inverse Solvers	Feb 9, 2024	Image CaptioningSemantic Segmentation	—Unverified
AttS2S-VC: Sequence-to-Sequence Voice Conversion with Attention and Context Preservation Mechanisms	Nov 9, 2018	GPUImage Captioning	—Unverified
Feedback is Needed for Retakes: An Explainable Poor Image Notification Framework for the Visually Impaired	Nov 17, 2022	Image Captioning	—Unverified

Show:10 25 50

← PrevPage 12 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified