Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 1878 papers

Title	Date	Tasks	Status	Hype
Vision Language Models Can Parse Floor Plan Maps	Sep 19, 2024	Image CaptioningQuestion Answering	—Unverified	0
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available	0
LLMs Can Check Their Own Results to Mitigate Hallucinations in Traffic Understanding Tasks	Sep 19, 2024	Autonomous DrivingHallucination	—Unverified	0
Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference	Sep 18, 2024	Image CaptioningLarge Language Model	—Unverified	0
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	Sep 17, 2024	cross-modal alignmentImage Captioning	CodeCode Available	0
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models	Sep 16, 2024	DecoderDiversity	CodeCode Available	3
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified	0
Evaluating authenticity and quality of image captions via sentiment and semantic analyses	Sep 14, 2024	Image CaptioningImage to text	—Unverified	0
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings	Sep 12, 2024	FADImage Captioning	—Unverified	0
BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding	Sep 12, 2024	Contrastive LearningImage Captioning	—Unverified	0
Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks	Sep 11, 2024	Image CaptioningQuestion Answering	CodeCode Available	0
PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation	Sep 10, 2024	Image CaptioningImage Generation	—Unverified	0
LIME: Less Is More for MLLM Evaluation	Sep 10, 2024	Image CaptioningQuestion Answering	CodeCode Available	1
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified	0
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning	Sep 9, 2024	Federated LearningImage Captioning	—Unverified	0
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity	Sep 7, 2024	Image CaptioningImage Retrieval	CodeCode Available	0
FODA-PG for Enhanced Medical Imaging Narrative Generation: Adaptive Differentiation of Normal and Abnormal Attributes	Sep 6, 2024	Domain AdaptationImage Captioning	—Unverified	0
No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning	Sep 4, 2024	Image CaptioningRetrieval	—Unverified	0
Kvasir-VQA: A Text-Image Pair GI Tract Dataset	Sep 2, 2024	Image CaptioningImage Generation	CodeCode Available	0
MultiMath: Bridging Visual and Mathematical Reasoning for Large Language Models	Aug 30, 2024	Image CaptioningLanguage Modeling	CodeCode Available	1
See or Guess: Counterfactually Regularized Image Captioning	Aug 29, 2024	Causal Inferencecounterfactual	CodeCode Available	1
Fluent and Accurate Image Captioning with a Self-Trained Reward Model	Aug 29, 2024	Image CaptioningSpecificity	—Unverified	0
Hand1000: Generating Realistic Hands from Text with Only 1,000 Images	Aug 28, 2024	AnatomyGesture Recognition	—Unverified	0
Pixels to Prose: Understanding the art of Image Captioning	Aug 28, 2024	DescriptiveImage Captioning	—Unverified	0
Revisiting Image Captioning Training Paradigm via Direct CLIP-based Optimization	Aug 26, 2024	DescriptiveImage Captioning	CodeCode Available	1
Bidirectional Awareness Induction in Autoregressive Seq2Seq Models	Aug 25, 2024	Image CaptioningMachine Translation	—Unverified	0
Shifted Window Fourier Transform And Retention For Image Captioning	Aug 25, 2024	Autonomous VehiclesImage Captioning	—Unverified	0
The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks	Aug 19, 2024	DenoisingImage Captioning	—Unverified	0
PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology	Aug 13, 2024	Image Captioning	—Unverified	0
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy and Novel Ensemble Method	Aug 9, 2024	DiversityImage Captioning	—Unverified	0
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers	Aug 9, 2024	Image CaptioningTransfer Learning	CodeCode Available	0
Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs	Aug 8, 2024	ArticlesImage Captioning	—Unverified	0
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning	Aug 6, 2024	AllImage Captioning	—Unverified	0
Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection	Aug 5, 2024	DescriptiveImage Captioning	—Unverified	0
Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI	Aug 4, 2024	Image Captioning	—Unverified	0
A Novel Evaluation Framework for Image2Text Generation	Aug 3, 2024	Image CaptioningImage Generation	—Unverified	0
The Phantom Menace: Unmasking Privacy Leakages in Vision-Language Models	Aug 2, 2024	Image Captioning	—Unverified	0
AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning	Jul 30, 2024	Adversarial RobustnessComputational Efficiency	—Unverified	0
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues	Jul 29, 2024	Image Captioning	CodeCode Available	1
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks	Jul 29, 2024	Deep LearningDomain Generalization	—Unverified	0
HICEScore: A Hierarchical Metric for Image Captioning Evaluation	Jul 26, 2024	DescriptiveImage Captioning	CodeCode Available	0
SWIFT: Semantic Watermarking for Image Forgery Thwarting	Jul 26, 2024	Image Captioning	CodeCode Available	0
Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models	Jul 23, 2024	Computational EfficiencyImage Captioning	—Unverified	0
DiffX: Guide Your Layout to Cross-Modal Generative Modeling	Jul 22, 2024	DenoisingImage Captioning	CodeCode Available	1
VideoGameBunny: Towards vision assistants for video games	Jul 21, 2024	Image CaptioningScene Understanding	—Unverified	0
Downstream-Pretext Domain Knowledge Traceback for Active Learning	Jul 20, 2024	Active LearningDiversity	—Unverified	0
EVLM: An Efficient Vision-Language Model for Visual Understanding	Jul 19, 2024	Image CaptioningLanguage Modeling	—Unverified	0
LookupViT: Compressing visual information to a limited number of tokens	Jul 17, 2024	Image Captioningimage-classification	—Unverified	0
CIC-BART-SSA: Controllable Image Captioning with Structured Semantic Augmentation	Jul 16, 2024	controllable image captioningData Augmentation	CodeCode Available	0
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights	Jul 16, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0

Show:10 25 50

← PrevPage 6 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified