Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 118 papers

Title	Date	Tasks	Status
Multi-Modal Open-Domain Dialogue	Oct 2, 2020	Visual Dialog	—Unverified
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog	Feb 1, 2019	Question AnsweringVisual Dialog	—Unverified
ORD: Object Relationship Discovery for Visual Dialogue Generation	Jun 15, 2020	Dialogue GenerationGraph Attention	—Unverified
PIRC Net : Using Proposal Indexing, Relationships and Context for Phrase Grounding	Dec 7, 2018	Phrase GroundingSentence	—Unverified
Probabilistic framework for solving Visual Dialog	Sep 11, 2019	Common Sense ReasoningVisual Dialog	—Unverified
Pushing the Limits of Radiology with Joint Modeling of Visual and Textual Information	Jul 1, 2018	Image ClassificationMachine Translation	—Unverified
Reactive Multi-Stage Feature Fusion for Multimodal Dialogue Modeling	Aug 14, 2019	Question AnsweringScene-Aware Dialogue	—Unverified
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog	Apr 10, 2022	Logical ReasoningSentence	—Unverified
Region under Discussion for visual dialog	Nov 1, 2021	Visual Dialog	—Unverified
Response to "Visual Dialogue without Vision or Dialogue" (Massiceti et al., 2018)	Jan 16, 2019	Visual Dialog	—Unverified
The Impact of Answers in Referential Visual Dialog	Oct 1, 2021	Question GenerationQuestion-Generation	—Unverified
The World in My Mind: Visual Dialog with Adversarial Multi-modal Feature Encoding	Jun 1, 2019	General KnowledgeVisual Dialog	—Unverified
Towards Visual Dialog for Radiology	Jul 1, 2020	Question AnsweringVisual Dialog	—Unverified
Two can play this Game: Visual Dialog with Discriminative Question Generation and Answering	Mar 29, 2018	Image CaptioningQuestion Answering	—Unverified
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog	May 1, 2022	Contrastive LearningRepresentation Learning	—Unverified
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Jan 1, 2025	Contrastive LearningText Retrieval	—Unverified
Variational Disentangled Attention for Regularized Visual Dialog	Sep 29, 2021	Question AnsweringVisual Dialog	—Unverified
ViDA-MAN: Visual Dialog with Digital Humans	Oct 26, 2021	speech-recognitionSpeech Recognition	—Unverified
On Controlled DeEntanglement for Natural Language Processing	Sep 22, 2019	Visual Dialog	—Unverified
Vision and Language: from Visual Perception to Content Creation	Dec 26, 2019	DecoderQuestion Answering	—Unverified
Visual Reference Resolution using Attention Memory for Visual Dialog	Sep 23, 2017	Parameter PredictionQuestion Answering	—Unverified
Visual-Textual Alignment for Graph Inference in Visual Dialog	Dec 1, 2020	Visual Dialog	—Unverified
VU-BERT: A Unified framework for Visual Dialog	Feb 22, 2022	Language ModelingLanguage Modelling	—Unverified
What Should I Ask? Using Conversationally Informative Rewards for Goal-oriented Visual Dialog.	Jul 1, 2019	Reinforcement LearningVisual Dialog	—Unverified
What Should I Ask? Using Conversationally Informative Rewards for Goal-Oriented Visual Dialog	Jul 28, 2019	Reinforcement LearningVisual Dialog	—Unverified
What's to know? Uncertainty as a Guide to Asking Goal-oriented Questions	Dec 16, 2018	Visual Dialog	—Unverified
How to Fool Systems and Humans in Visually Grounded Interaction: A Case Study on Adversarial Attacks on Visual Dialog	Jan 16, 2022	Visual Dialog	—Unverified
ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report	Jul 13, 2024	Explanation GenerationLanguage Modeling	—Unverified
Image-Question-Answer Synergistic Network for Visual Dialog	Feb 26, 2019	Visual Dialog	—Unverified
Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning	Apr 15, 2022	Contrastive LearningQuestion Answering	—Unverified
Knowledge Transfer with Visual Prompt in multi-modal Dialogue Understanding and Generation	Oct 1, 2022	Dialogue UnderstandingKnowledge Distillation	—Unverified
Learning Goal-Oriented Visual Dialog Agents: Imitating and Surpassing Analytic Experts	Jul 24, 2019	Imitation Learningreinforcement-learning	—Unverified
Factor Graph Attention	Apr 11, 2019	Graph AttentionQuestion Answering	CodeCode Available
Visual Dialogue without Vision or Dialogue	Dec 16, 2018	Question AnsweringVisual Dialog	CodeCode Available
Recursive Visual Attention in Visual Dialog	Dec 6, 2018	Question AnsweringVisual Dialog	CodeCode Available
Collecting Visually-Grounded Dialogue with A Game Of Sorts	Sep 10, 2023	Coreference ResolutionImage Retrieval	CodeCode Available
CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog	Mar 7, 2019	coreference-resolutionCoreference Resolution	CodeCode Available
Examining Cooperation in Visual Dialog Models	Dec 4, 2017	Visual Dialog	CodeCode Available
SeqDialN: Sequential Visual Dialog Network in Joint Visual-Linguistic Representation Space	Aug 1, 2021	Visual Dialog	CodeCode Available
Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented Guesser	Sep 6, 2021	DiversityReinforcement Learning (RL)	CodeCode Available
Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs	Nov 26, 2019	AllVisual Dialog	CodeCode Available
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	CodeCode Available
Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation	May 24, 2021	Referring ExpressionReferring Expression Comprehension	CodeCode Available
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue	Nov 17, 2019	feature selectionQuestion Answering	CodeCode Available
SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation Space	Aug 2, 2020	Visual Dialog	CodeCode Available
Learning Goal-Oriented Visual Dialog via Tempered Policy Gradient	Jul 2, 2018	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available
Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene	Mar 16, 2022	Visual Dialog	CodeCode Available
Learning to Reason: End-to-End Module Networks for Visual Question Answering	Apr 18, 2017	Visual DialogVisual Question Answering	CodeCode Available

Show:10 25 50

← PrevPage 2 of 3Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified