Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1801–1850 of 1878 papers

Title	Date	Tasks	Status
Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training	Oct 17, 2022	Image CaptioningNetwork Interpretation	CodeCode Available
Plug & Play Generative Networks: Conditional Iterative Generation of Images in Latent Space	Nov 30, 2016	Image CaptioningImage Inpainting	CodeCode Available
Unifying Text, Tables, and Images for Multimodal Question Answering	Dec 10, 2023	Image CaptioningQuestion Answering	CodeCode Available
Fraternal Dropout	Oct 31, 2017	Image CaptioningLanguage Modeling	CodeCode Available
Unrestricted Adversarial Examples via Semantic Manipulation	Apr 12, 2019	ColorizationImage Captioning	CodeCode Available
Fluency-Guided Cross-Lingual Image Captioning	Aug 15, 2017	Image Captioning	CodeCode Available
FLoRA: Enhancing Vision-Language Models with Parameter-Efficient Federated Learning	Apr 12, 2024	Federated LearningImage Captioning	CodeCode Available
Fine-Grained Image Captioning with Global-Local Discriminative Objective	Jul 21, 2020	DescriptiveImage Captioning	CodeCode Available
#PraCegoVer: A Large Dataset for Image Captioning in Portuguese	Mar 21, 2021	Image CaptioningSentence	CodeCode Available
UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning	Dec 31, 2020	Contrastive LearningCross-Modal Retrieval	CodeCode Available
Pragmatic Issue-Sensitive Image Captioning	Apr 29, 2020	DescriptiveImage Captioning	CodeCode Available
Precision or Recall? An Analysis of Image Captions for Training Text-to-Image Generation Model	Nov 7, 2024	Image CaptioningImage Generation	CodeCode Available
A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning	Mar 6, 2025	DescriptiveImage Captioning	CodeCode Available
Beyond Temporal Pooling: Recurrence and Temporal Convolutions for Gesture Recognition in Video	Jun 5, 2015	Gesture RecognitionImage Captioning	CodeCode Available
Beyond Human Data: Aligning Multimodal Large Language Models by Iterative Self-Evolution	Dec 20, 2024	Answer GenerationImage Captioning	CodeCode Available
Annotation Order Matters: Recurrent Image Annotator for Arbitrary Length Image Tagging	Apr 18, 2016	Image CaptioningMachine Translation	CodeCode Available
Technical Report of NICE Challenge at CVPR 2024: Caption Re-ranking Evaluation Using Ensembled CLIP and Consensus Scores	May 2, 2024	Image CaptioningRe-Ranking	CodeCode Available
Pretrained Image-Text Models are Secretly Video Captioners	Feb 19, 2025	Image CaptioningVideo Captioning	CodeCode Available
Finding beans in burgers: Deep semantic-visual embedding with localization	Apr 5, 2018	Cross-Modal RetrievalImage Captioning	CodeCode Available
Visually-Aware Context Modeling for News Image Captioning	Aug 16, 2023	ArticlesImage Captioning	CodeCode Available
"Wikily" Supervised Neural Translation Tailored to Cross-Lingual Tasks	Apr 16, 2021	Cross-Lingual TransferCross-Lingual Word Embeddings	CodeCode Available
Fast and Simple Mixture of Softmaxes with BPE and Hybrid-LightRNN for Language Generation	Sep 25, 2018	Image CaptioningMachine Translation	CodeCode Available
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment	Oct 8, 2024	Audio captioningContrastive Learning	CodeCode Available
Face-Cap: Image Captioning using Facial Expression Analysis	Jul 6, 2018	DescriptiveImage Captioning	CodeCode Available
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language	Nov 8, 2023	Image CaptioningLanguage Modeling	CodeCode Available
Context-Aware Visual Policy Network for Sequence-Level Image Captioning	Aug 16, 2018	Deep Reinforcement LearningImage Captioning	CodeCode Available
Expressing Visual Relationships via Language	Jun 18, 2019	DecoderImage Captioning	CodeCode Available
Context-aware Captions from Context-agnostic Supervision	Jan 11, 2017	Image CaptioningLanguage Modeling	CodeCode Available
Visual Question Answering: which investigated applications?	Mar 4, 2021	Image CaptioningQuestion Answering	CodeCode Available
TexLiDAR: Automated Text Understanding for Panoramic LiDAR Data	Feb 5, 2025	Image Captioningobject-detection	CodeCode Available
ContCap: A scalable framework for continual image captioning	Sep 19, 2019	Continual LearningImage Captioning	CodeCode Available
Protecting Intellectual Property of Language Generation APIs with Lexical Watermark	Dec 5, 2021	Document SummarizationImage Captioning	CodeCode Available
Exploring the Synergy Between Vision-Language Pretraining and ChatGPT for Artwork Captioning: A Preliminary Study	Jan 21, 2023	Image CaptioningInformativeness	CodeCode Available
PR Product: A Substitute for Inner Product in Neural Networks	Apr 30, 2019	General ClassificationImage Captioning	CodeCode Available
Exploring Nearest Neighbor Approaches for Image Captioning	May 17, 2015	Image Captioning	CodeCode Available
Aesthetic Attributes Assessment of Images	Jul 11, 2019	AttributeImage Captioning	CodeCode Available
Visual Semantic Relatedness Dataset for Image Captioning	Jan 20, 2023	Image Captioningtext similarity	CodeCode Available
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models	Dec 8, 2024	Image Captioning	CodeCode Available
An Examination of the Robustness of Reference-Free Image Captioning Evaluation Metrics	May 24, 2023	Image CaptioningNegation	CodeCode Available
Quality Estimation for Image Captions Based on Large-scale Human Evaluations	Sep 8, 2019	Image CaptioningModel Selection	CodeCode Available
Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation	Jul 27, 2023	Image CaptioningModel Optimization	CodeCode Available
Quantifying the amount of visual information used by neural caption generators	Oct 12, 2018	Image CaptioningPosition	CodeCode Available
Unsupervised Image Captioning	Nov 27, 2018	Image CaptioningImage Description	CodeCode Available
Quantifying the visual concreteness of words and topics in multimodal datasets	Apr 18, 2018	BIG-bench Machine LearningImage Captioning	CodeCode Available
Explicit Sparse Transformer: Concentrated Attention Through Explicit Selection	Dec 25, 2019	Image CaptioningLanguage Modeling	CodeCode Available
Experimenting with Self-Supervision using Rotation Prediction for Image Captioning	Jul 28, 2021	DecoderImage Captioning	CodeCode Available
Exploring the sequence length bottleneck in the Transformer for Image Captioning	Jul 7, 2022	Image Captioning	CodeCode Available
Examining Gender and Racial Bias in Large Vision-Language Models Using a Novel Dataset of Parallel Images	Feb 8, 2024	Image CaptioningQuestion Answering	CodeCode Available
Text-driven Adaptation of Foundation Models for Few-shot Surgical Workflow Analysis	Jan 16, 2025	DecoderImage Captioning	CodeCode Available
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables	May 10, 2019	Adversarial AttackImage Captioning	CodeCode Available

Show:10 25 50

← PrevPage 37 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified