Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 118 papers

Title	Date	Tasks	Status
The Impact of Answers in Referential Visual Dialog	Oct 1, 2021	Question GenerationQuestion-Generation	—Unverified
Variational Disentangled Attention for Regularized Visual Dialog	Sep 29, 2021	Question AnsweringVisual Dialog	—Unverified
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog	Sep 17, 2021	coreference-resolutionCoreference Resolution	—Unverified
Learning to Ground Visual Objects for Visual Dialog	Sep 13, 2021	Visual Dialog	—Unverified
Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented Guesser	Sep 6, 2021	DiversityReinforcement Learning (RL)	CodeCode Available
SeqDialN: Sequential Visual Dialog Network in Joint Visual-Linguistic Representation Space	Aug 1, 2021	Visual Dialog	CodeCode Available
Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation	May 24, 2021	Referring ExpressionReferring Expression Comprehension	CodeCode Available
Visual-Textual Alignment for Graph Inference in Visual Dialog	Dec 1, 2020	Visual Dialog	—Unverified
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified
Multi-Modal Open-Domain Dialogue	Oct 2, 2020	Visual Dialog	—Unverified
Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue	Oct 1, 2020	Question GenerationQuestion-Generation	CodeCode Available
SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation Space	Aug 2, 2020	Visual Dialog	CodeCode Available
Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data	Jul 24, 2020	Visual DialogVisual Question Answering (VQA)	CodeCode Available
Effective questions in referential visual dialogue	Jul 1, 2020	Visual Dialog	—Unverified
Towards Visual Dialog for Radiology	Jul 1, 2020	Question AnsweringVisual Dialog	—Unverified
ORD: Object Relationship Discovery for Visual Dialogue Generation	Jun 15, 2020	Dialogue GenerationGraph Attention	—Unverified
Modality-Balanced Models for Visual Dialogue	Jan 17, 2020	Visual Dialog	—Unverified
Ensemble based discriminative models for Visual Dialog Challenge 2018	Jan 15, 2020	PositionVisual Dialog	—Unverified
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified
DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog	Dec 18, 2019	AI AgentDecoder	CodeCode Available
TAB-VCR: Tags and Attributes based VCR Baselines	Dec 1, 2019	AttributeQuestion Answering	CodeCode Available
Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs	Nov 26, 2019	AllVisual Dialog	CodeCode Available
Two Causal Principles for Improving Visual Dialog	Nov 24, 2019	Visual DialogVocal Bursts Valence Prediction	CodeCode Available
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue	Nov 17, 2019	feature selectionQuestion Answering	CodeCode Available
Video Dialog via Progressive Inference and Cross-Transformer	Nov 1, 2019	Answer GenerationQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified