Image Captioning

Image Captioning is the task of describing the content of an image in words. This task lies at the intersection of computer vision and natural language processing. Most image captioning systems use an encoder-decoder framework, where an input image is encoded into an intermediate representation of the information in the image, and then decoded into a descriptive text sequence. The most popular benchmarks are nocaps and COCO, and models are typically evaluated according to a BLEU or CIDER metric.

( Image credit: Reflective Decoding Network for Image Captioning, ICCV'19)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1601–1650 of 1878 papers

Title	Date	Tasks	Status	Hype
GroupCap: Group-Based Image Captioning With Structured Relevance and Diversity Constraints	Jun 1, 2018	DiversityImage Captioning	—Unverified	0
Categorizing Concepts With Basic Level for Vision-to-Language	Jun 1, 2018	ClusteringImage Captioning	—Unverified	0
Interpretable Video Captioning via Trajectory Structured Localization	Jun 1, 2018	DecoderImage Captioning	—Unverified	0
Exploring the Functional and Geometric Bias of Spatial Relations Using Neural Language Models	Jun 1, 2018	Image Captioning	—Unverified	0
Telling Stories with Soundtracks: An Empirical Analysis of Music in Film	Jun 1, 2018	Image CaptioningQuestion Answering	—Unverified	0
Generative Bridging Network for Neural Sequence Prediction	Jun 1, 2018	Abstractive Text SummarizationImage Captioning	—Unverified	0
Generating Image Captions in Arabic using Root-Word Based Recurrent Neural Networks and Deep Neural Networks	Jun 1, 2018	Caption GenerationImage Captioning	—Unverified	0
Visually Guided Spatial Relation Extraction from Text	Jun 1, 2018	Activity RecognitionImage Captioning	—Unverified	0
Learning Word Embeddings for Low-Resource Languages by PU Learning	Jun 1, 2018	Document RankingImage Captioning	—Unverified	0
Dialog Generation Using Multi-Turn Reasoning Neural Networks	Jun 1, 2018	Constituency ParsingImage Captioning	—Unverified	0
How Time Matters: Learning Time-Decay Attention for Contextual Spoken Language Understanding in Dialogues	Jun 1, 2018	Dialogue State TrackingImage Captioning	CodeCode Available	0
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech	May 31, 2018	Caption GenerationDiversity	—Unverified	0
Neural Joking Machine : Humorous image captioning	May 30, 2018	Image Captioning	—Unverified	0
Grow and Prune Compact, Fast, and Accurate LSTMs	May 30, 2018	Image Captioningspeech-recognition	—Unverified	0
CNN+CNN: Convolutional Decoders for Image Captioning	May 23, 2018	Image CaptioningSentence	CodeCode Available	1
Joint Image Captioning and Question Answering	May 22, 2018	Image CaptioningQuestion Answering	—Unverified	0
Turbo Learning for Captionbot and Drawingbot	May 21, 2018	Image CaptioningImage Generation	—Unverified	0
Neural Architecture Search using Deep Neural Networks and Monte Carlo Tree Search	May 18, 2018	GPUImage Captioning	CodeCode Available	1
SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text	May 18, 2018	DescriptiveImage Captioning	CodeCode Available	0
Improving Image Captioning with Conditional Generative Adversarial Nets	May 18, 2018	DecoderImage Captioning	CodeCode Available	0
Defoiling Foiled Image Captions	May 16, 2018	DescriptiveImage Captioning	CodeCode Available	0
Token-level and sequence-level loss smoothing for RNN language models	May 14, 2018	Image CaptioningMachine Translation	CodeCode Available	0
Image Captioning	May 13, 2018	General ClassificationImage Captioning	CodeCode Available	0
A vision-grounded dataset for predicting typical locations for verbs	May 1, 2018	Common Sense ReasoningImage Captioning	—Unverified	0
Incorporating Semantic Attention in Video Description Generation	May 1, 2018	Image CaptioningImage Classification	—Unverified	0
Edit me: A Corpus and a Framework for Understanding Natural Language Image Editing	May 1, 2018	Image CaptioningQuestion Answering	—Unverified	0
Annotating Modality Expressions and Event Factuality for a Japanese Chess Commentary Corpus	May 1, 2018	Image CaptioningText Generation	—Unverified	0
Augmenting Image Question Answering Dataset by Exploiting Image Captions	May 1, 2018	Data AugmentationImage Captioning	—Unverified	0
Visual Choice of Plausible Alternatives: An Evaluation of Image-based Commonsense Causal Reasoning	May 1, 2018	Commonsense Causal ReasoningImage Captioning	CodeCode Available	0
Neural Caption Generation for News Images	May 1, 2018	Caption GenerationImage Captioning	—Unverified	0
Adversarial Semantic Alignment for Improved Image Captions	Apr 30, 2018	Image Captioning	—Unverified	0
No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling	Apr 24, 2018	Image CaptioningReinforcement Learning	CodeCode Available	0
Object Counts! Bringing Explicit Detections Back into Image Captioning	Apr 23, 2018	Image CaptioningLanguage Modeling	—Unverified	0
Entity-aware Image Caption Generation	Apr 21, 2018	Caption GenerationImage Captioning	—Unverified	0
Quantifying the visual concreteness of words and topics in multimodal datasets	Apr 18, 2018	BIG-bench Machine LearningImage Captioning	CodeCode Available	0
Delete, Retrieve, Generate: A Simple Approach to Sentiment and Style Transfer	Apr 17, 2018	AttributeImage Captioning	CodeCode Available	0
Pragmatically Informative Image Captioning with Character-Level Inference	Apr 15, 2018	Image CaptioningRolling Shutter Correction	—Unverified	0
Decoupled Novel Object Captioner	Apr 11, 2018	Image CaptioningNovel Concepts	CodeCode Available	0
Discovery and usage of joint attention in images	Apr 10, 2018	Image Captioning	—Unverified	0
Natural Language Statistical Features of LSTM-generated Texts	Apr 10, 2018	Image CaptioningText Generation	—Unverified	0
Finding beans in burgers: Deep semantic-visual embedding with localization	Apr 5, 2018	Cross-Modal RetrievalImage Captioning	CodeCode Available	0
Learning to Guide Decoding for Image Captioning	Apr 3, 2018	AttributeDecoder	—Unverified	0
Guide Me: Interacting with Deep Networks	Mar 30, 2018	Image CaptioningImage Generation	—Unverified	0
Regularizing RNNs for Caption Generation by Reconstructing The Past with The Present	Mar 30, 2018	Caption GenerationDecoder	CodeCode Available	0
Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering	Mar 29, 2018	Image CaptioningQuestion Answering	—Unverified	0
Neural Baby Talk	Mar 27, 2018	Image CaptioningObject	CodeCode Available	0
Women also Snowboard: Overcoming Bias in Captioning Models	Mar 26, 2018	Image Captioning	CodeCode Available	1
Show, Tell and Discriminate: Image Captioning by Self-retrieval with Partially Labeled Data	Mar 22, 2018	Image CaptioningRetrieval	—Unverified	0
Unpaired Image Captioning by Language Pivoting	Mar 14, 2018	Image CaptioningSentence	—Unverified	0
Discriminability objective for training descriptive captions	Mar 12, 2018	Caption GenerationDescriptive	CodeCode Available	0

Show:10 25 50

← PrevPage 33 of 38Next →

All datasets VizWiz 2020 test-dev COCO Captions nocaps in-domain nocaps near-domain nocaps out-of-domain nocaps entire COCO (Common Objects in Context)VizWiz 2020 test nocaps-XD entire nocaps-val-in-domain nocaps-val-overall nocaps-XD in-domain

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IBM Research AI	CIDEr	80.67	—	Unverified
2	CASIA_IVA	CIDEr	79.15	—	Unverified
3	feixiang	CIDEr	77.31	—	Unverified
4	wocao	CIDEr	77.21	—	Unverified
5	lamiwab172	CIDEr	75.93	—	Unverified
6	RUC_AIM3	CIDEr	73.52	—	Unverified
7	funas	CIDEr	73.51	—	Unverified
8	SRC-B_VCLab	CIDEr	73.47	—	Unverified
9	sparta	CIDEr	73.41	—	Unverified
10	x-viz	CIDEr	73.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	VALOR	CIDER	152.5	—	Unverified
2	VAST	CIDER	149	—	Unverified
3	Virtex (ResNet-101)	CIDER	94	—	Unverified
4	KOSMOS-1 (1.6B) (zero-shot)	CIDER	84.7	—	Unverified
5	BLIP-FuseCap	CLIPScore	78.5	—	Unverified
6	mPLUG	BLEU-4	46.5	—	Unverified
7	OFA	BLEU-4	44.9	—	Unverified
8	GIT	BLEU-4	44.1	—	Unverified
9	BLIP-2 ViT-G OPT 2.7B (zero-shot)	BLEU-4	43.7	—	Unverified
10	BLIP-2 ViT-G OPT 6.7B (zero-shot)	BLEU-4	43.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	149.1	—	Unverified
2	GIT2, Single Model	CIDEr	124.18	—	Unverified
3	GIT, Single Model	CIDEr	122.4	—	Unverified
4	PaLI	CIDEr	121.09	—	Unverified
5	CoCa - Google Brain	CIDEr	117.9	—	Unverified
6	Microsoft Cognitive Services team	CIDEr	112.82	—	Unverified
7	Single Model	CIDEr	108.98	—	Unverified
8	GRIT (zero-shot, no VL pretraining, no CBS)	CIDEr	105.9	—	Unverified
9	FudanFVL	CIDEr	104.9	—	Unverified
10	FudanWYZ	CIDEr	104.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GIT2, Single Model	CIDEr	125.51	—	Unverified
2	PaLI	CIDEr	124.35	—	Unverified
3	GIT, Single Model	CIDEr	123.92	—	Unverified
4	CoCa - Google Brain	CIDEr	120.73	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	115.54	—	Unverified
6	Single Model	CIDEr	110.76	—	Unverified
7	FudanFVL	CIDEr	109.33	—	Unverified
8	FudanWYZ	CIDEr	108.04	—	Unverified
9	IEDA-LAB	CIDEr	100.15	—	Unverified
10	firethehole	CIDEr	99.51	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	CIDEr	126.67	—	Unverified
2	GIT2, Single Model	CIDEr	122.27	—	Unverified
3	GIT, Single Model	CIDEr	122.04	—	Unverified
4	CoCa - Google Brain	CIDEr	121.69	—	Unverified
5	Microsoft Cognitive Services team	CIDEr	110.14	—	Unverified
6	Single Model	CIDEr	109.49	—	Unverified
7	FudanFVL	CIDEr	106.55	—	Unverified
8	FudanWYZ	CIDEr	103.75	—	Unverified
9	Human	CIDEr	91.62	—	Unverified
10	firethehole	CIDEr	88.54	—	Unverified