Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1550 of 1878 papers

Title	Date	Tasks	Status	Hype
Attend More Times for Image Captioning	Dec 8, 2018	Image Captioning	—Unverified	0
An Attempt towards Interpretable Audio-Visual Video Captioning	Dec 7, 2018	Audio captioningAudio-Visual Video Captioning	—Unverified	0
Auto-Encoding Scene Graphs for Image Captioning	Dec 6, 2018	DecoderImage Captioning	CodeCode Available	0
Learning to Caption Images through a Lifetime by Asking Questions	Dec 1, 2018	Active LearningImage Captioning	CodeCode Available	0
Towards Task Understanding in Visual Settings	Nov 28, 2018	Image CaptioningText Generation	—Unverified	0
Unsupervised Image Captioning	Nov 27, 2018	Image CaptioningImage Description	CodeCode Available	0
Show, Control and Tell: A Framework for Generating Controllable and Grounded Captions	Nov 26, 2018	controllable image captioningDiversity	CodeCode Available	0
A Novel Technique for Evidence based Conditional Inference in Deep Neural Networks via Latent Feature Perturbation	Nov 24, 2018	Image CaptioningInstance Segmentation	—Unverified	0
Senti-Attend: Image Captioning using Sentiment and Attention	Nov 24, 2018	Image Captioning	—Unverified	0
An Interpretable Model for Scene Graph Generation	Nov 21, 2018	Graph GenerationImage Captioning	—Unverified	0
Intention Oriented Image Captions with Guiding Objects	Nov 19, 2018	Image CaptioningObject	—Unverified	0
Image Captioning Based on a Hierarchical Attention Mechanism and Policy Gradient Optimization	Nov 13, 2018	Generative Adversarial NetworkImage Captioning	—Unverified	0
AttS2S-VC: Sequence-to-Sequence Voice Conversion with Attention and Context Preservation Mechanisms	Nov 9, 2018	GPUImage Captioning	—Unverified	0
Generating Description for Sequential Images with Local-Object Attention Conditioned on Global Semantic Context	Nov 1, 2018	Image CaptioningText Generation	—Unverified	0
Decoding Strategies for Neural Referring Expression Generation	Nov 1, 2018	Image CaptioningMachine Translation	—Unverified	0
Treat the system like a human student: Automatic naturalness evaluation of generated text without reference texts	Nov 1, 2018	Image CaptioningMachine Translation	—Unverified	0
The Task Matters: Comparing Image Captioning and Task-Based Dialogical Image Description	Nov 1, 2018	Image CaptioningImage Description	—Unverified	0
Importance of Self-Attention for Sentiment Analysis	Nov 1, 2018	ClassificationDecision Making	—Unverified	0
End-to-end Image Captioning Exploits Distributional Similarity in Multimodal Space	Nov 1, 2018	Image CaptioningText Generation	CodeCode Available	0
A sequential guiding network with attention for image captioning	Nov 1, 2018	DecoderImage Captioning	—Unverified	0
Gated Hierarchical Attention for Image Captioning	Oct 30, 2018	DecoderImage Captioning	CodeCode Available	1
Engaging Image Captioning Via Personality	Oct 25, 2018	Image CaptioningSentence	—Unverified	0
Area Attention	Oct 23, 2018	Image CaptioningMachine Translation	CodeCode Available	0
A Neural Compositional Paradigm for Image Captioning	Oct 23, 2018	DiversityImage Captioning	CodeCode Available	0
Look Deeper See Richer: Depth-aware Image Paragraph Captioning	Oct 15, 2018	DecoderImage Captioning	—Unverified	0
UMONS Submission for WMT18 Multimodal Translation Task	Oct 15, 2018	Image CaptioningMachine Translation	CodeCode Available	0
Bringing back simplicity and lightliness into neural image captioning	Oct 15, 2018	Caption GenerationImage Captioning	—Unverified	0
Quantifying the amount of visual information used by neural caption generators	Oct 12, 2018	Image CaptioningPosition	CodeCode Available	0
Image Captioning as Neural Machine Translation Task in SOCKEYE	Oct 9, 2018	DecoderImage Captioning	—Unverified	0
A Comprehensive Survey of Deep Learning for Image Captioning	Oct 6, 2018	Deep LearningImage Captioning	CodeCode Available	0
Image-to-Video Person Re-Identification by Reusing Cross-modal Embeddings	Oct 4, 2018	Image CaptioningImage-To-Video Person Re-Identification	—Unverified	0
Input Combination Strategies for Multi-Source Transformer Decoder	Oct 1, 2018	DecoderImage Captioning	—Unverified	0
EmojiGAN: learning emojis distributions with a generative model	Oct 1, 2018	Image CaptioningImage to text	—Unverified	0
Surprisingly Easy Hard-Attention for Sequence to Sequence Learning	Oct 1, 2018	Hard AttentionImage Captioning	CodeCode Available	0
Disambiguated skip-gram model	Oct 1, 2018	Image Captioningmodel	—Unverified	0
CaLcs: Continuously Approximating Longest Common Subsequence for Sequence Level Optimization	Oct 1, 2018	Abstractive Text SummarizationImage Captioning	—Unverified	0
Training for Diversity in Image Paragraph Captioning	Oct 1, 2018	DiversityImage Captioning	CodeCode Available	0
Multimodal Differential Network for Visual Question Generation	Oct 1, 2018	Image CaptioningNatural Questions	—Unverified	0
Grounding Semantic Roles in Images	Oct 1, 2018	Image CaptioningQuestion Answering	—Unverified	0
GraphSeq2Seq: Graph-Sequence-to-Sequence for Neural Machine Translation	Sep 27, 2018	DecoderImage Captioning	—Unverified	0
Differentiable Expected BLEU for Text Generation	Sep 27, 2018	Image CaptioningMachine Translation	—Unverified	0
Semantically Invariant Text-to-Image Generation	Sep 27, 2018	Image CaptioningImage Generation	—Unverified	0
Vector Learning for Cross Domain Representations	Sep 27, 2018	DecoderImage Captioning	—Unverified	0
Batch-normalized Recurrent Highway Networks	Sep 26, 2018	Image Captioning	CodeCode Available	0
Fast and Simple Mixture of Softmaxes with BPE and Hybrid-LightRNN for Language Generation	Sep 25, 2018	Image CaptioningMachine Translation	CodeCode Available	0
A Neural Compositional Paradigm for Image Captioning	Sep 24, 2018	DiversityImage Captioning	—Unverified	0
Textually Enriched Neural Module Networks for Visual Question Answering	Sep 23, 2018	Image CaptioningQuestion Answering	—Unverified	0
Towards Accountable AI: Hybrid Human-Machine Analyses for Characterizing System Failure	Sep 19, 2018	BIG-bench Machine LearningImage Captioning	—Unverified	0
Exploring Visual Relationship for Image Captioning	Sep 19, 2018	DecoderImage Captioning	—Unverified	0
Improving Reinforcement Learning Based Image Captioning with Natural Language Prior	Sep 13, 2018	Image Captioningreinforcement-learning	CodeCode Available	0

Show:10 25 50

← PrevPage 31 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified