Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 118 papers

Title	Date	Tasks	Status
What Should I Ask? Using Conversationally Informative Rewards for Goal-oriented Visual Dialog.	Jul 1, 2019	Reinforcement LearningVisual Dialog	—Unverified
What Should I Ask? Using Conversationally Informative Rewards for Goal-Oriented Visual Dialog	Jul 28, 2019	Reinforcement LearningVisual Dialog	—Unverified
What's to know? Uncertainty as a Guide to Asking Goal-oriented Questions	Dec 16, 2018	Visual Dialog	—Unverified
How to Fool Systems and Humans in Visually Grounded Interaction: A Case Study on Adversarial Attacks on Visual Dialog	Jan 16, 2022	Visual Dialog	—Unverified
ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report	Jul 13, 2024	Explanation GenerationLanguage Modeling	—Unverified
Image-Question-Answer Synergistic Network for Visual Dialog	Feb 26, 2019	Visual Dialog	—Unverified
Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning	Apr 15, 2022	Contrastive LearningQuestion Answering	—Unverified
Knowledge Transfer with Visual Prompt in multi-modal Dialogue Understanding and Generation	Oct 1, 2022	Dialogue UnderstandingKnowledge Distillation	—Unverified
Learning Goal-Oriented Visual Dialog Agents: Imitating and Surpassing Analytic Experts	Jul 24, 2019	Imitation Learningreinforcement-learning	—Unverified
Factor Graph Attention	Apr 11, 2019	Graph AttentionQuestion Answering	CodeCode Available
Visual Dialogue without Vision or Dialogue	Dec 16, 2018	Question AnsweringVisual Dialog	CodeCode Available
Recursive Visual Attention in Visual Dialog	Dec 6, 2018	Question AnsweringVisual Dialog	CodeCode Available
Collecting Visually-Grounded Dialogue with A Game Of Sorts	Sep 10, 2023	Coreference ResolutionImage Retrieval	CodeCode Available
CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog	Mar 7, 2019	coreference-resolutionCoreference Resolution	CodeCode Available
Examining Cooperation in Visual Dialog Models	Dec 4, 2017	Visual Dialog	CodeCode Available
SeqDialN: Sequential Visual Dialog Network in Joint Visual-Linguistic Representation Space	Aug 1, 2021	Visual Dialog	CodeCode Available
Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented Guesser	Sep 6, 2021	DiversityReinforcement Learning (RL)	CodeCode Available
Efficient Attention Mechanism for Visual Dialog that can Handle All the Interactions between Multiple Inputs	Nov 26, 2019	AllVisual Dialog	CodeCode Available
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	CodeCode Available
Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation	May 24, 2021	Referring ExpressionReferring Expression Comprehension	CodeCode Available
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue	Nov 17, 2019	feature selectionQuestion Answering	CodeCode Available
SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation Space	Aug 2, 2020	Visual Dialog	CodeCode Available
Learning Goal-Oriented Visual Dialog via Tempered Policy Gradient	Jul 2, 2018	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available
Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene	Mar 16, 2022	Visual Dialog	CodeCode Available
Learning to Reason: End-to-End Module Networks for Visual Question Answering	Apr 18, 2017	Visual DialogVisual Question Answering	CodeCode Available

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified