Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–75 of 118 papers

Title	Date	Tasks	Status
Multi-Modal Open-Domain Dialogue	Oct 2, 2020	Visual Dialog	—Unverified
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog	Feb 1, 2019	Question AnsweringVisual Dialog	—Unverified
ORD: Object Relationship Discovery for Visual Dialogue Generation	Jun 15, 2020	Dialogue GenerationGraph Attention	—Unverified
PIRC Net : Using Proposal Indexing, Relationships and Context for Phrase Grounding	Dec 7, 2018	Phrase GroundingSentence	—Unverified
Probabilistic framework for solving Visual Dialog	Sep 11, 2019	Common Sense ReasoningVisual Dialog	—Unverified
Pushing the Limits of Radiology with Joint Modeling of Visual and Textual Information	Jul 1, 2018	Image ClassificationMachine Translation	—Unverified
Reactive Multi-Stage Feature Fusion for Multimodal Dialogue Modeling	Aug 14, 2019	Question AnsweringScene-Aware Dialogue	—Unverified
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog	Apr 10, 2022	Logical ReasoningSentence	—Unverified
Region under Discussion for visual dialog	Nov 1, 2021	Visual Dialog	—Unverified
Response to "Visual Dialogue without Vision or Dialogue" (Massiceti et al., 2018)	Jan 16, 2019	Visual Dialog	—Unverified
The Impact of Answers in Referential Visual Dialog	Oct 1, 2021	Question GenerationQuestion-Generation	—Unverified
The World in My Mind: Visual Dialog with Adversarial Multi-modal Feature Encoding	Jun 1, 2019	General KnowledgeVisual Dialog	—Unverified
Towards Visual Dialog for Radiology	Jul 1, 2020	Question AnsweringVisual Dialog	—Unverified
Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering	Mar 29, 2018	Image CaptioningQuestion Answering	—Unverified
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog	May 1, 2022	Contrastive LearningRepresentation Learning	—Unverified
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Jan 1, 2025	Contrastive LearningText Retrieval	—Unverified
Variational Disentangled Attention for Regularized Visual Dialog	Sep 29, 2021	Question AnsweringVisual Dialog	—Unverified
ViDA-MAN: Visual Dialog with Digital Humans	Oct 26, 2021	speech-recognitionSpeech Recognition	—Unverified
On Controlled DeEntanglement for Natural Language Processing	Sep 22, 2019	Visual Dialog	—Unverified
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified
Visual-Textual Alignment for Graph Inference in Visual Dialog	Dec 1, 2020	Visual Dialog	—Unverified
VU-BERT: A Unified framework for Visual Dialog	Feb 22, 2022	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified