Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 1878 papers

Title	Date	Tasks	Status
TARN-VIST: Topic Aware Reinforcement Network for Visual Storytelling	Mar 18, 2024	Image CaptioningVisual Storytelling	—Unverified
Taxonomic Reasoning for Rare Arthropods: Combining Dense Image Captioning and RAG for Interpretable Classification	Mar 13, 2025	Image CaptioningRAG	—Unverified
TCIC: Theme Concepts Learning Cross Language and Vision for Image Captioning	Jun 21, 2021	DecoderImage Captioning	—Unverified
Teacher-Critical Training Strategies for Image Captioning	Sep 30, 2020	Image CaptioningReinforcement Learning (RL)	—Unverified
Teaching Machines to Describe Images via Natural Language Feedback	Jun 1, 2017	DescriptiveImage Captioning	—Unverified
Teaching Machines to Describe Images with Natural Language Feedback	Dec 1, 2017	DescriptiveImage Captioning	—Unverified
Technical Report: Image Captioning with Semantically Similar Images	Jun 12, 2015	Image Captioning	—Unverified
Tell-and-Answer: Towards Explainable Visual Question Answering using Attributes and Captions	Jan 27, 2018	AttributeImage Captioning	—Unverified
Telling Stories with Soundtracks: An Empirical Analysis of Music in Film	Jun 1, 2018	Image CaptioningQuestion Answering	—Unverified
Tell-the-difference: Fine-grained Visual Descriptor via a Discriminating Referee	Oct 14, 2019	DecoderImage Captioning	—Unverified
Temporal Knowledge-Aware Image Captioning	Nov 16, 2021	Caption GenerationImage Captioning	—Unverified
Texar: A Modularized, Versatile, and Extensible Toolbox for Text Generation	Jul 1, 2018	Image CaptioningMachine Translation	—Unverified
Text-based Person Search without Parallel Image-Text Data	May 22, 2023	Image CaptioningLanguage Modeling	—Unverified
TextCaps: a Dataset for Image Captioning with Reading Comprehension	Mar 24, 2020	Image CaptioningOptical Character Recognition	—Unverified
Alt-Text with Context: Improving Accessibility for Images on Twitter	May 24, 2023	DescriptiveImage Captioning	—Unverified
Text Data-Centric Image Captioning with Interactive Prompts	Mar 28, 2024	Image Captioning	—Unverified
Image Captioning with Multi-Context Synthetic Data	May 29, 2023	Image CaptioningLanguage Modelling	—Unverified
Text-only Synthesis for Image Captioning	May 28, 2024	Image CaptioningLanguage Modelling	—Unverified
Text or Image? What is More Important in Cross-Domain Generalization Capabilities of Hate Meme Detection Models?	Feb 7, 2024	Domain GeneralizationImage Captioning	—Unverified
Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity	Oct 3, 2022	Audio captioningImage Captioning	—Unverified
Text-to-Image Synthesis Based on Machine Generated Captions	Oct 9, 2019	Image CaptioningImage Generation	—Unverified
Textually Enriched Neural Module Networks for Visual Question Answering	Sep 23, 2018	Image CaptioningQuestion Answering	—Unverified
The AFRL-OSU WMT17 Multimodal Translation System: An Image Processing Approach	Sep 1, 2017	Image CaptioningMachine Translation	—Unverified
The ApposCorpus: A new multilingual, multi-domain dataset for factual appositive generation	Nov 6, 2020	ArticlesImage Captioning	—Unverified
The BreakingNews Dataset	Apr 1, 2017	ArticlesImage Captioning	—Unverified
The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks	Aug 19, 2024	DenoisingImage Captioning	—Unverified
The Case for Evaluating Multimodal Translation Models on Text Datasets	Mar 5, 2024	DescriptiveImage Captioning	—Unverified
The Long-Short Story of Movie Description	Jun 4, 2015	Image CaptioningImage Description	—Unverified
The price of debiasing automatic metrics in natural language evalaution	Jul 1, 2018	Abstractive Text SummarizationImage Captioning	—Unverified
What Makes for Good Image Captions?	May 1, 2024	HallucinationImage Captioning	—Unverified
The Solution for the CVPR2023 NICE Image Captioning Challenge	Oct 10, 2023	Contrastive LearningImage Captioning	—Unverified
The Solution for the CVPR2024 NICE Image Captioning Challenge	Apr 19, 2024	Image CaptioningRetrieval	—Unverified
The Solution for the ICCV 2023 1st Scientific Figure Captioning Challenge	Mar 26, 2024	Caption GenerationImage Captioning	—Unverified
The Task Matters: Comparing Image Captioning and Task-Based Dialogical Image Description	Nov 1, 2018	Image CaptioningImage Description	—Unverified
TIME: Text and Image Mutual-Translation Adversarial Networks	May 27, 2020	Generative Adversarial NetworkImage Captioning	—Unverified
TNG-CLIP:Training-Time Negation Data Generation for Negation Awareness of CLIP	May 24, 2025	Image CaptioningImage Generation	—Unverified
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering	Sep 21, 2022	Image CaptioningOptical Character Recognition (OCR)	—Unverified
Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage	Dec 20, 2024	AttributeBenchmarking	—Unverified
Towards Accountable AI: Hybrid Human-Machine Analyses for Characterizing System Failure	Sep 19, 2018	BIG-bench Machine LearningImage Captioning	—Unverified
Towards Adaptable and Interactive Image Captioning with Data Augmentation and Episodic Memory	Jun 6, 2023	Continual LearningData Augmentation	—Unverified
Towards Annotation-Free Evaluation of Cross-Lingual Image Captioning	Dec 9, 2020	Image CaptioningMachine Translation	—Unverified
Towards Automatic Satellite Images Captions Generation Using Large Language Models	Oct 17, 2023	Image CaptioningManagement	—Unverified
Towards Generating Stylized Image Captions via Adversarial Training	Aug 8, 2019	Image Captioning	—Unverified
Towards L-System Captioning for Tree Reconstruction	May 10, 2023	Image Captioning	—Unverified
Towards Models that Can See and Read	Jan 18, 2023	DecoderImage Captioning	—Unverified
Towards More Unified In-context Visual Understanding	Dec 5, 2023	DecoderImage Captioning	—Unverified
Towards Multimodal In-Context Learning for Vision & Language Models	Mar 19, 2024	Image CaptioningIn-Context Learning	—Unverified
Towards Real Time Egocentric Segment Captioning for The Blind and Visually Impaired in RGB-D Theatre Images	Aug 26, 2023	Autonomous DrivingImage Captioning	—Unverified
Towards Retrieval-Augmented Architectures for Image Captioning	May 21, 2024	Image CaptioningLanguage Modeling	—Unverified
Towards Self-Explainability of Deep Neural Networks with Heatmap Captioning and Large-Language Models	Apr 5, 2023	Explainable Artificial Intelligence (XAI)Image Captioning	—Unverified

Show:10 25 50

← PrevPage 26 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified