Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 118 papers

Title	Date	Tasks	Status	Hype
Effective questions in referential visual dialogue	Jul 1, 2020	Visual Dialog	—Unverified	0
ORD: Object Relationship Discovery for Visual Dialogue Generation	Jun 15, 2020	Dialogue GenerationGraph Attention	—Unverified	0
History for Visual Dialog: Do we really need it?	May 8, 2020	Visual Dialog	CodeCode Available	1
Multi-View Attention Network for Visual Dialog	Apr 29, 2020	Visual Dialog	CodeCode Available	1
VD-BERT: A Unified Vision and Dialog Transformer with BERT	Apr 28, 2020	Answer GenerationVisual Dialog	CodeCode Available	1
Reasoning Visual Dialog with Sparse Graph Learning and Knowledge Transfer	Apr 14, 2020	Graph LearningGraph structure learning	CodeCode Available	1
Iterative Context-Aware Graph Inference for Visual Dialog	Apr 5, 2020	Graph AttentionGraph Embedding	CodeCode Available	1
Modality-Balanced Models for Visual Dialogue	Jan 17, 2020	Visual Dialog	—Unverified	0
Ensemble based discriminative models for Visual Dialog Challenge 2018	Jan 15, 2020	PositionVisual Dialog	—Unverified	0
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified	0
DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog	Dec 18, 2019	AI AgentDecoder	CodeCode Available	0
Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline	Dec 5, 2019	Language ModellingRepresentation Learning	CodeCode Available	1
TAB-VCR: Tags and Attributes based VCR Baselines	Dec 1, 2019	AttributeQuestion Answering	CodeCode Available	0
Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs	Nov 26, 2019	AllVisual Dialog	CodeCode Available	0
Two Causal Principles for Improving Visual Dialog	Nov 24, 2019	Visual DialogVocal Bursts Valence Prediction	CodeCode Available	0
An Annotated Corpus of Reference Resolution for Interpreting Common Grounding	Nov 18, 2019	Coreference ResolutionGoal-Oriented Dialog	CodeCode Available	1
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue	Nov 17, 2019	feature selectionQuestion Answering	CodeCode Available	0
Visual Dialogue State Tracking for Question Generation	Nov 12, 2019	Dialogue State TrackingQuestion Generation	CodeCode Available	1
Video Dialog via Progressive Inference and Cross-Transformer	Nov 1, 2019	Answer GenerationQuestion Answering	—Unverified	0
TAB-VCR: Tags and Attributes based Visual Commonsense Reasoning Baselines	Oct 31, 2019	AttributeQuestion Answering	CodeCode Available	0
Granular Multimodal Attention Networks for Visual Dialog	Oct 13, 2019	Visual Dialog	—Unverified	0
Improving Generative Visual Dialog by Answering Diverse Questions	Sep 23, 2019	Reinforcement LearningRepresentation Learning	CodeCode Available	0
On Controlled DeEntanglement for Natural Language Processing	Sep 22, 2019	Visual Dialog	—Unverified	0
Probabilistic framework for solving Visual Dialog	Sep 11, 2019	Common Sense ReasoningVisual Dialog	—Unverified	0
Building Task-Oriented Visual Dialog Systems Through Alternative Optimization Between Dialog Policy and Language Generation	Sep 6, 2019	DecoderReinforcement Learning	—Unverified	0

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified