Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1878 papers

Title	Date	Tasks	Status
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models	Dec 8, 2024	Image Captioning	CodeCode Available
HMGIE: Hierarchical and Multi-Grained Inconsistency Evaluation for Vision-Language Data Cleansing	Dec 7, 2024	Answer GenerationGraph Generation	—Unverified
Automated Medical Report Generation for ECG Data: Bridging Medical Text and Signal Processing with Deep Learning	Dec 5, 2024	Comment GenerationDecoder	CodeCode Available
Personalizing Multimodal Large Language Models for Image Captioning: An Experimental Analysis	Dec 4, 2024	Image CaptioningImage Description	—Unverified
Progress-Aware Video Frame Captioning	Dec 3, 2024	Image CaptioningVideo Captioning	—Unverified
CEGI: Measuring the trade-off between efficiency and carbon emissions for SLMs and VLMs	Dec 3, 2024	Image CaptioningQuantization	—Unverified
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding	Dec 2, 2024	Caption GenerationDomain Generalization	—Unverified
Improving Multimodal LLMs Ability In Geometry Problem Solving, Reasoning, And Multistep Scoring	Dec 1, 2024	Automated Theorem ProvingGeometry Problem Solving	—Unverified
Sparse Attention Vectors: Generative Multimodal Model Features Are Discriminative Vision-Language Classifiers	Nov 28, 2024	Image Captioningimage-classification	—Unverified
OPCap:Object-aware Prompting Captioning	Nov 27, 2024	AttributeDecoder	—Unverified
Active Data Curation Effectively Distills Large-Scale Multimodal Models	Nov 27, 2024	DecoderImage Captioning	—Unverified
Efficient Multi-modal Large Language Models via Visual Token Grouping	Nov 26, 2024	Image CaptioningQuestion Answering	—Unverified
Debiasing Classifiers by Amplifying Bias with Latent Diffusion and Large Language Models	Nov 25, 2024	AttributeComputational Efficiency	—Unverified
Chain of Attack: On the Robustness of Vision-Language Models Against Transfer-Based Adversarial Attacks	Nov 24, 2024	Image CaptioningNatural Language Understanding	—Unverified
FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity	Nov 23, 2024	AttributeCross-Modal Retrieval	—Unverified
Uterine Ultrasound Image Captioning Using Deep Learning Techniques	Nov 21, 2024	Deep LearningDescriptive	—Unverified
Mitigating Perception Bias: A Training-Free Approach to Enhance LMM for Image Quality Assessment	Nov 19, 2024	Image CaptioningImage Quality Assessment	—Unverified
AI Flow at the Network Edge	Nov 19, 2024	Image Captioning	—Unverified
The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning	Nov 18, 2024	Image Captioning	CodeCode Available
Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning	Nov 17, 2024	Image CaptioningLanguage Modeling	CodeCode Available
MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild	Nov 17, 2024	Active LearningImage Captioning	—Unverified
Cross-Modal Consistency in Multimodal Large Language Models	Nov 14, 2024	Image Captioningobject-detection	—Unverified
Bridging the Visual Gap: Fine-Tuning Multimodal Models with Knowledge-Adapted Captions	Nov 13, 2024	DescriptiveHallucination	CodeCode Available
Grounded Video Caption Generation	Nov 12, 2024	Caption GenerationImage Captioning	—Unverified
BLIP3-KALE: Knowledge Augmented Large-Scale Dense Captions	Nov 12, 2024	DescriptiveImage Captioning	—Unverified
ViTOC: Vision Transformer and Object-aware Captioner	Nov 9, 2024	DiversityImage Captioning	—Unverified
Image2Text2Image: A Novel Framework for Label-Free Evaluation of Image-to-Text Generation with Text-to-Image Diffusion Models	Nov 8, 2024	Image CaptioningImage Generation	—Unverified
Precision or Recall? An Analysis of Image Captions for Training Text-to-Image Generation Model	Nov 7, 2024	Image CaptioningImage Generation	CodeCode Available
Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models	Nov 7, 2024	Adversarial AttackImage Captioning	—Unverified
RS-MoE: Mixture of Experts for Remote Sensing Image Captioning and Visual Question Answering	Nov 3, 2024	DescriptiveImage Captioning	—Unverified
Designing a Robust Radiology Report Generation System	Nov 2, 2024	Decision MakingDiagnostic	—Unverified
Aggregate-and-Adapt Natural Language Prompts for Downstream Generalization of CLIP	Oct 31, 2024	Image CaptioningPrompt Learning	—Unverified
Large Language Model Benchmarks in Medical Tasks	Oct 28, 2024	Image CaptioningLanguage Modeling	—Unverified
Image Generation from Image Captioning -- Invertible Approach	Oct 26, 2024	Image CaptioningImage Generation	—Unverified
Decoding Diffusion: A Scalable Framework for Unsupervised Analysis of Latent Space Biases and Representations Using Natural Language Prompts	Oct 25, 2024	DenoisingImage Captioning	—Unverified
Backdoor in Seconds: Unlocking Vulnerabilities in Large Pre-trained Models via Model Editing	Oct 23, 2024	Adversarial AttackBackdoor Attack	—Unverified
Altogether: Image Captioning via Re-aligning Alt-text	Oct 22, 2024	Image Captioningimage-classification	—Unverified
An Efficient System for Automatic Map Storytelling -- A Case Study on Historical Maps	Oct 21, 2024	Image Captioning	CodeCode Available
VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use	Oct 21, 2024	Image CaptioningTask Planning	—Unverified
MI-VisionShot: Few-shot adaptation of vision-language models for slide-level classification of histopathological images	Oct 21, 2024	Few-Shot LearningImage Captioning	CodeCode Available
Hiding-in-Plain-Sight (HiPS) Attack on CLIP for Targetted Object Removal from Images	Oct 16, 2024	Image CaptioningObject	—Unverified
Self-adaptive Multimodal Retrieval-Augmented Generation	Oct 15, 2024	Image CaptioningRAG	CodeCode Available
MMCFND: Multimodal Multilingual Caption-aware Fake News Detection for Low-resource Indic Languages	Oct 14, 2024	ArticlesDescriptive	—Unverified
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification	Oct 12, 2024	Image CaptioningPerson Re-Identification	—Unverified
A Unified Debiasing Approach for Vision-Language Models across Modalities and Tasks	Oct 10, 2024	FairnessImage Captioning	CodeCode Available
An Eye for an Ear: Zero-shot Audio Description Leveraging an Image Captioner using Audiovisual Distribution Alignment	Oct 8, 2024	Audio captioningContrastive Learning	CodeCode Available
Core Tokensets for Data-efficient Sequential Training of Transformers	Oct 8, 2024	Image Captioningimage-classification	CodeCode Available
AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models	Oct 7, 2024	Image CaptioningImage-text Retrieval	—Unverified
CAPEEN: Image Captioning with Early Exits and Knowledge Distillation	Oct 6, 2024	DescriptiveImage Captioning	CodeCode Available
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark	Oct 4, 2024	Image CaptioningVideo Understanding	—Unverified

Show:10 25 50

← PrevPage 12 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified