Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1551–1600 of 1878 papers

Title	Date	Tasks	Status	Hype
Image Captioning based on Deep Reinforcement Learning	Sep 13, 2018	Deep Reinforcement LearningImage Captioning	—Unverified	0
End-to-end Image Captioning Exploits Multimodal Distributional Similarity	Sep 11, 2018	Image CaptioningText Generation	—Unverified	0
SPASS: Scientific Prominence Active Search System with Deep Image Captioning Network	Sep 10, 2018	Image CaptioningTask Planning	—Unverified	0
Object Hallucination in Image Captioning	Sep 6, 2018	HallucinationImage Captioning	CodeCode Available	0
Accelerated Reinforcement Learning for Sentence Generation by Vocabulary Prediction	Sep 5, 2018	GPUImage Captioning	CodeCode Available	0
Diverse and Coherent Paragraph Generation from Images	Sep 3, 2018	DiversityImage Captioning	—Unverified	0
Chittron: An Automatic Bangla Image Captioning System	Sep 2, 2018	Caption GenerationImage Captioning	—Unverified	0
``Factual'' or ``Emotional'': Stylized Image Captioning with Adaptive Learning and Attention	Sep 1, 2018	Image Captioning	—Unverified	0
NNEval: Neural Network based Evaluation Metric for Image Captioning	Sep 1, 2018	Image CaptioningSentence	—Unverified	0
When to Finish? Optimal Beam Search for Neural Text Generation (modulo beam size)	Aug 31, 2018	Image CaptioningMachine Translation	—Unverified	0
Hard Non-Monotonic Attention for Character-Level Transduction	Aug 29, 2018	Hard AttentionImage Captioning	CodeCode Available	1
Multi-Reference Training with Pseudo-References for Neural Translation and Text Generation	Aug 28, 2018	Image CaptioningMachine Translation	—Unverified	0
A neural attention model for speech command recognition	Aug 27, 2018	Image Captioningmodel	CodeCode Available	1
simNet: Stepwise Image-Topic Merging Network for Generating Detailed and Comprehensive Image Captions	Aug 27, 2018	DecoderImage Captioning	CodeCode Available	0
Approximate Distribution Matching for Sequence-to-Sequence Learning	Aug 24, 2018	Image CaptioningMachine Translation	—Unverified	0
Context-Aware Visual Policy Network for Sequence-Level Image Captioning	Aug 16, 2018	Deep Reinforcement LearningImage Captioning	CodeCode Available	0
Dropout during inference as a model for neurological degeneration in an image captioning network	Aug 11, 2018	Image Captioning	—Unverified	0
Using Word Embeddings for Unsupervised Acronym Disambiguation	Aug 1, 2018	Image CaptioningWord Embeddings	—Unverified	0
Incorporating Deep Visual Features into Multiobjective based Multi-view Search Results Clustering	Aug 1, 2018	ClusteringImage Captioning	—Unverified	0
Visual Question Answering Dataset for Bilingual Image Understanding: A Study of Cross-Lingual Transfer Using Attention Maps	Aug 1, 2018	Cross-Lingual TransferImage Captioning	—Unverified	0
Dynamic Feature Selection with Attention in Incremental Parsing	Aug 1, 2018	Dependency ParsingDialogue Generation	—Unverified	0
Doubly Attentive Transformer Machine Translation	Jul 30, 2018	DecoderImage Captioning	—Unverified	0
Rethinking the Form of Latent States in Image Captioning	Jul 26, 2018	Caption GenerationForm	—Unverified	0
Recurrent Fusion Network for Image Captioning	Jul 26, 2018	DecoderImage Captioning	—Unverified	0
Distinctive-attribute Extraction for Image Captioning	Jul 25, 2018	AttributeAttribute Extraction	—Unverified	0
Inductive Visual Localisation: Factorised Training for Superior Generalisation	Jul 21, 2018	Image CaptioningMachine Translation	—Unverified	0
What is not where: the challenge of integrating spatial representations into deep learning architectures	Jul 21, 2018	Caption GenerationDeep Learning	—Unverified	0
Equal But Not The Same: Understanding the Implicit Relationship Between Persuasive Images and Text	Jul 21, 2018	Image CaptioningSpecificity	—Unverified	0
Contextual Memory Trees	Jul 17, 2018	General ClassificationImage Captioning	—Unverified	0
"Factual" or "Emotional": Stylized Image Captioning with Adaptive Learning and Attention	Jul 10, 2018	Image Captioning	—Unverified	0
Topic-Guided Attention for Image Captioning	Jul 10, 2018	Image Captioning	CodeCode Available	0
Learning The Sequential Temporal Information with Recurrent Neural Networks	Jul 8, 2018	Image CaptioningLanguage Modeling	—Unverified	0
Face-Cap: Image Captioning using Facial Expression Analysis	Jul 6, 2018	DescriptiveImage Captioning	CodeCode Available	0
Women also Snowboard: Overcoming Bias in Captioning Models (Extended Abstract)	Jul 2, 2018	Image Captioning	—Unverified	0
Texar: A Modularized, Versatile, and Extensible Toolbox for Text Generation	Jul 1, 2018	Image CaptioningMachine Translation	—Unverified	0
Multimodal Named Entity Disambiguation for Noisy Social Media Posts	Jul 1, 2018	Entity DisambiguationImage Captioning	—Unverified	0
Document Modeling with External Attention for Sentence Extraction	Jul 1, 2018	Answer SelectionDocument Summarization	CodeCode Available	0
A Neural Approach to Pun Generation	Jul 1, 2018	DiversityImage Captioning	—Unverified	0
The price of debiasing automatic metrics in natural language evalaution	Jul 1, 2018	Abstractive Text SummarizationImage Captioning	—Unverified	0
Learning-based Composite Metrics for Improved Caption Evaluation	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified	0
Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning	Jul 1, 2018	Image Captioning	CodeCode Available	0
Connecting Language and Vision to Actions	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified	0
Learning Visually-Grounded Semantics from Contrastive Adversarial Samples	Jun 27, 2018	Adversarial AttackImage Captioning	CodeCode Available	0
BFGAN: Backward and Forward Generative Adversarial Networks for Lexically Constrained Sentence Generation	Jun 21, 2018	Image CaptioningMachine Translation	—Unverified	0
RISE: Randomized Input Sampling for Explanation of Black-box Models	Jun 19, 2018	Explainable Artificial Intelligence (XAI)Feature Importance	CodeCode Available	1
Learning to Evaluate Image Captioning	Jun 17, 2018	8kData Augmentation	CodeCode Available	0
Multi-Level Policy and Reward Reinforcement Learning for Image Captioning	Jun 15, 2018	Image CaptioningNatural Language Understanding	—Unverified	0
Partially-Supervised Image Captioning	Jun 15, 2018	Image CaptioningObject	—Unverified	0
iParaphrasing: Extracting Visually Grounded Paraphrases via an Image	Jun 12, 2018	Image CaptioningQuestion Answering	CodeCode Available	0
Stacked Latent Attention for Multimodal Reasoning	Jun 1, 2018	Image CaptioningMultimodal Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 32 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified