Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 1878 papers

Title	Date	Tasks	Status
Backdooring Vision-Language Models with Out-Of-Distribution Data	Oct 2, 2024	Image CaptioningImage to text	—Unverified
Quantifying the Gaps Between Translation and Native Perception in Training for Multimodal, Multilingual Retrieval	Oct 2, 2024	Image CaptioningRetrieval	—Unverified
TROPE: TRaining-Free Object-Part Enhancement for Seamlessly Improving Fine-Grained Zero-Shot Image Captioning	Sep 30, 2024	Image CaptioningObject	CodeCode Available
TrojVLM: Backdoor Attack Against Vision Language Models	Sep 28, 2024	Backdoor AttackImage Captioning	—Unverified
DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning	Sep 28, 2024	HallucinationImage Captioning	—Unverified
A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning	Sep 27, 2024	DecoderFairness	—Unverified
Enhancing Explainability in Multimodal Large Language Models Using Ontological Context	Sep 27, 2024	Image CaptioningQuestion Answering	—Unverified
Brotherhood at WMT 2024: Leveraging LLM-Generated Contextual Conversations for Cross-Lingual Image Captioning	Sep 23, 2024	Image CaptioningSemantic Similarity	—Unverified
Effectively Enhancing Vision Language Large Models by Prompt Augmentation and Caption Utilization	Sep 22, 2024	HallucinationHallucination Evaluation	CodeCode Available
@Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology	Sep 21, 2024	BenchmarkingDepth Estimation	—Unverified
FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs	Sep 20, 2024	Image CaptioningImage Comprehension	—Unverified
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available
Vision Language Models Can Parse Floor Plan Maps	Sep 19, 2024	Image CaptioningQuestion Answering	—Unverified
LLMs Can Check Their Own Results to Mitigate Hallucinations in Traffic Understanding Tasks	Sep 19, 2024	Autonomous DrivingHallucination	—Unverified
Decoding Style: Efficient Fine-Tuning of LLMs for Image-Guided Outfit Recommendation with Preference	Sep 18, 2024	Image CaptioningLarge Language Model	—Unverified
KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph	Sep 17, 2024	cross-modal alignmentImage Captioning	CodeCode Available
NEVLP: Noise-Robust Framework for Efficient Vision-Language Pre-training	Sep 15, 2024	Contrastive Learningcross-modal alignment	—Unverified
Evaluating authenticity and quality of image captions via sentiment and semantic analyses	Sep 14, 2024	Image CaptioningImage to text	—Unverified
Bridging Paintings and Music -- Exploring Emotion based Music Generation through Paintings	Sep 12, 2024	FADImage Captioning	—Unverified
BLens: Contrastive Captioning of Binary Functions using Ensemble Embedding	Sep 12, 2024	Contrastive LearningImage Captioning	—Unverified
Securing Vision-Language Models with a Robust Encoder Against Jailbreak and Adversarial Attacks	Sep 11, 2024	Image CaptioningQuestion Answering	CodeCode Available
Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding	Sep 10, 2024	HallucinationImage Captioning	—Unverified
PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation	Sep 10, 2024	Image CaptioningImage Generation	—Unverified
MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning	Sep 9, 2024	Federated LearningImage Captioning	—Unverified
Training-free Zero-shot Composed Image Retrieval via Weighted Modality Fusion and Similarity	Sep 7, 2024	Image CaptioningImage Retrieval	CodeCode Available
FODA-PG for Enhanced Medical Imaging Narrative Generation: Adaptive Differentiation of Normal and Abnormal Attributes	Sep 6, 2024	Domain AdaptationImage Captioning	—Unverified
No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning	Sep 4, 2024	Image CaptioningRetrieval	—Unverified
Kvasir-VQA: A Text-Image Pair GI Tract Dataset	Sep 2, 2024	Image CaptioningImage Generation	CodeCode Available
Fluent and Accurate Image Captioning with a Self-Trained Reward Model	Aug 29, 2024	Image CaptioningSpecificity	—Unverified
Hand1000: Generating Realistic Hands from Text with Only 1,000 Images	Aug 28, 2024	AnatomyGesture Recognition	—Unverified
Pixels to Prose: Understanding the art of Image Captioning	Aug 28, 2024	DescriptiveImage Captioning	—Unverified
Bidirectional Awareness Induction in Autoregressive Seq2Seq Models	Aug 25, 2024	Image CaptioningMachine Translation	—Unverified
Shifted Window Fourier Transform And Retention For Image Captioning	Aug 25, 2024	Autonomous VehiclesImage Captioning	—Unverified
The Brittleness of AI-Generated Image Watermarking Techniques: Examining Their Robustness Against Visual Paraphrasing Attacks	Aug 19, 2024	DenoisingImage Captioning	—Unverified
PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology	Aug 13, 2024	Image Captioning	—Unverified
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy and Novel Ensemble Method	Aug 9, 2024	DiversityImage Captioning	—Unverified
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers	Aug 9, 2024	Image CaptioningTransfer Learning	CodeCode Available
Enhancing Journalism with AI: A Study of Contextualized Image Captioning for News Articles using LLMs and LMMs	Aug 8, 2024	ArticlesImage Captioning	—Unverified
One Framework to Rule Them All: Unifying Multimodal Tasks with LLM Neural-Tuning	Aug 6, 2024	AllImage Captioning	—Unverified
Modelling Visual Semantics via Image Captioning to extract Enhanced Multi-Level Cross-Modal Semantic Incongruity Representation with Attention for Multimodal Sarcasm Detection	Aug 5, 2024	DescriptiveImage Captioning	—Unverified
Dataset Scale and Societal Consistency Mediate Facial Impression Bias in Vision-Language AI	Aug 4, 2024	Image Captioning	—Unverified
A Novel Evaluation Framework for Image2Text Generation	Aug 3, 2024	Image CaptioningImage Generation	—Unverified
The Phantom Menace: Unmasking Privacy Leakages in Vision-Language Models	Aug 2, 2024	Image Captioning	—Unverified
AI Safety in Practice: Enhancing Adversarial Robustness in Multimodal Image Captioning	Jul 30, 2024	Adversarial RobustnessComputational Efficiency	—Unverified
VolDoGer: LLM-assisted Datasets for Domain Generalization in Vision-Language Tasks	Jul 29, 2024	Deep LearningDomain Generalization	—Unverified
SWIFT: Semantic Watermarking for Image Forgery Thwarting	Jul 26, 2024	Image Captioning	CodeCode Available
HICEScore: A Hierarchical Metric for Image Captioning Evaluation	Jul 26, 2024	DescriptiveImage Captioning	CodeCode Available
Imperfect Vision Encoders: Efficient and Robust Tuning for Vision-Language Models	Jul 23, 2024	Computational EfficiencyImage Captioning	—Unverified
VideoGameBunny: Towards vision assistants for video games	Jul 21, 2024	Image CaptioningScene Understanding	—Unverified
Downstream-Pretext Domain Knowledge Traceback for Active Learning	Jul 20, 2024	Active LearningDiversity	—Unverified

Show:10 25 50

← PrevPage 13 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified