Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1201–1250 of 1878 papers

Title	Date	Tasks	Status
SMURF: SeMantic and linguistic UndeRstanding Fusion for Caption Evaluation via Typicality Analysis	Jun 2, 2021	Image Captioning	CodeCode Available
Learning to Select: A Fully Attentive Approach for Novel Object Captioning	Jun 2, 2021	Image CaptioningLanguage Modeling	—Unverified
Leveraging Partial Dependency Trees to Control Image Captions	Jun 1, 2021	Image Captioning	—Unverified
How Vision Affects Language: Comparing Masked Self-Attention in Uni-Modal and Multi-Modal Transformer	Jun 1, 2021	Image CaptioningMachine Translation	—Unverified
On Randomized Classification Layers and Their Implications in Natural Language Generation	Jun 1, 2021	Image CaptioningLanguage Modeling	—Unverified
Validity-Based Sampling and Smoothing Methods for Multiple Reference Image Captioning	Jun 1, 2021	Image Captioningvalid	—Unverified
Longer Version for "Deep Context-Encoding Network for Retinal Image Captioning"	May 30, 2021	AvgDecoder	—Unverified
New Encoder Learning for Captioning Heavy Rain Images via Semantic Visual Feature Matching	May 28, 2021	DecoderImage Captioning	—Unverified
Visual representation of negation: Real world data analysis on comic image design	May 21, 2021	Image Captioningimage-classification	—Unverified
More Than Just Attention: Improving Cross-Modal Attentions with Contrastive Constraints for Image-Text Matching	May 20, 2021	Contrastive LearningCross-Modal Retrieval	—Unverified
Dependent Multi-Task Learning with Causal Intervention for Image Captioning	May 18, 2021	Image CaptioningMulti-agent Reinforcement Learning	—Unverified
Multi-Modal Image Captioning for the Visually Impaired	May 17, 2021	Image Captioning	—Unverified
Survey of Visual-Semantic Embedding Methods for Zero-Shot Image Retrieval	May 16, 2021	Graph GenerationImage Captioning	—Unverified
Empirical Analysis of Image Caption Generation using Deep Learning	May 14, 2021	Caption GenerationDecoder	—Unverified
Instance-aware Remote Sensing Image Captioning with Cross-hierarchy Attention	May 11, 2021	DecoderDiversity	—Unverified
A Hybrid Model for Combining Neural Image Caption and k-Nearest Neighbor Approach for Image Captioning	May 9, 2021	Image Captioningregression	CodeCode Available
Exploring Explicit and Implicit Visual Relationships for Image Captioning	May 6, 2021	DecoderImage Captioning	—Unverified
End-to-End Attention-based Image Captioning	Apr 30, 2021	Image CaptioningTranslation	CodeCode Available
Removing Word-Level Spurious Alignment between Images and Pseudo-Captions in Unsupervised Image Captioning	Apr 28, 2021	Image Captioningimage-sentence alignment	CodeCode Available
Contextualized Keyword Representations for Multi-modal Retinal Image Captioning	Apr 26, 2021	AvgImage Captioning	—Unverified
"Wikily" Supervised Neural Translation Tailored to Cross-Lingual Tasks	Apr 16, 2021	Cross-Lingual TransferCross-Lingual Word Embeddings	CodeCode Available
HindSight: A Graph-Based Vision Model Architecture For Representing Part-Whole Hierarchies	Apr 8, 2021	Image Captioningimage-classification	—Unverified
Compressing Visual-linguistic Model via Knowledge Distillation	Apr 5, 2021	Image CaptioningKnowledge Distillation	—Unverified
Making Use of Latent Space in Language GANs for Generating Diverse Text without Pre-training	Apr 1, 2021	DiversityImage Captioning	—Unverified
Exploiting Image–Text Synergy for Contextual Image Captioning	Apr 1, 2021	ArticlesImage Captioning	—Unverified
On Hallucination and Predictive Uncertainty in Conditional Language Generation	Mar 28, 2021	Data-to-Text GenerationHallucination	—Unverified
#PraCegoVer: A Large Dataset for Image Captioning in Portuguese	Mar 21, 2021	Image CaptioningSentence	CodeCode Available
3M: Multi-style image caption generation using Multi-modality features under Multi-UPDOWN model	Mar 20, 2021	Caption GenerationImage Captioning	—Unverified
A Comprehensive Survey of Scene Graphs: Generation and Application	Mar 17, 2021	Image CaptioningQuestion Answering	—Unverified
Knowledge driven Description Synthesis for Floor Plan Interpretation	Mar 15, 2021	Caption GenerationDescriptive	—Unverified
Analysis of Convolutional Decoder for Image Caption Generation	Mar 8, 2021	Caption GenerationData Augmentation	—Unverified
Visual Question Answering: which investigated applications?	Mar 4, 2021	Image CaptioningQuestion Answering	CodeCode Available
DeepFN: Towards Generalizable Facial Action Unit Recognition with Deep Face Normalization	Mar 3, 2021	Action RecognitionDenoising	—Unverified
Retrieval Augmentation for Deep Neural Networks	Feb 25, 2021	Image CaptioningRetrieval	CodeCode Available
Enhanced Modality Transition for Image Captioning	Feb 23, 2021	DecoderImage Captioning	—Unverified
Image Captioning using Deep Stacked LSTMs, Contextual Word Embeddings and Data Augmentation	Feb 22, 2021	Data AugmentationDecoder	—Unverified
Improved Bengali Image Captioning via deep convolutional neural network based encoder-decoder model	Feb 14, 2021	DecoderImage Captioning	CodeCode Available
Image Captioning using Multiple Transformers for Self-Attention Mechanism	Feb 14, 2021	Image Captioning	—Unverified
Iconographic Image Captioning for Artworks	Feb 7, 2021	Image Captioning	CodeCode Available
L2C: Describing Visual Differences Needs Semantic Understanding of Individuals	Feb 3, 2021	Image Captioning	—Unverified
The Role of Syntactic Planning in Compositional Image Captioning	Jan 28, 2021	Image Captioning	CodeCode Available
CPTR: Full Transformer Network for Image Captioning	Jan 26, 2021	DecoderImage Captioning	—Unverified
ECOL-R: Encouraging Copying in Novel Object Captioning with Reinforcement Learning	Jan 25, 2021	Image CaptioningObject	—Unverified
Fast Sequence Generation with Multi-Agent Reinforcement Learning	Jan 24, 2021	Image CaptioningMachine Translation	—Unverified
Macroscopic Control of Text Generation for Image Captioning	Jan 20, 2021	DiversityImage Captioning	—Unverified
Diagnostic Captioning: A Survey	Jan 18, 2021	DiagnosticImage Captioning	—Unverified
CANVASEMB: Learning Layout Representation with Large-scale Pre-training for Graphic Design	Jan 1, 2021	Image CaptioningMulti-Task Learning	—Unverified
Hierarchical Graph Attention Network for Few-Shot Visual-Semantic Learning	Jan 1, 2021	Graph AttentionImage Captioning	—Unverified
Partial Off-Policy Learning: Balance Accuracy and Diversity for Human-Oriented Image Captioning	Jan 1, 2021	DiversityGenerative Adversarial Network	—Unverified
UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning	Dec 31, 2020	Contrastive LearningCross-Modal Retrieval	CodeCode Available

Show:10 25 50

← PrevPage 25 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified