Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 118 papers

Title	Date	Tasks	Status	Hype
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	Mar 27, 2024	Image ClassificationImage Comprehension	CodeCode Available	7
Hawk: Learning to Understand Open-World Video Anomalies	May 27, 2024	Anomaly DetectionQuestion Answering	CodeCode Available	3
Answerer in Questioner's Mind: Information Theoretic Approach to Goal-Oriented Visual Dialog	Feb 12, 2018	Goal-Oriented DialogReinforcement Learning	CodeCode Available	1
Video Dialog as Conversation about Objects Living in Space-Time	Jul 8, 2022	ObjectRelational Reasoning	CodeCode Available	1
An Annotated Corpus of Reference Resolution for Interpreting Common Grounding	Nov 18, 2019	Coreference ResolutionGoal-Oriented Dialog	CodeCode Available	1
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training	May 25, 2022	Conditional Text GenerationOut-of-Distribution Detection	CodeCode Available	1
Where Are You? Localization from Embodied Dialog	Nov 16, 2020	NavigateVisual Dialog	CodeCode Available	1
Unified Multimodal Model with Unlikelihood Training for Visual Dialog	Nov 23, 2022	Answer GenerationChatbot	CodeCode Available	1
History for Visual Dialog: Do we really need it?	May 8, 2020	Visual Dialog	CodeCode Available	1
Visual Dialog	Nov 26, 2016	AI AgentChatbot	CodeCode Available	1
Ensemble of MRR and NDCG models for Visual Dialog	Apr 15, 2021	AI AgentVisual Dialog	CodeCode Available	1
Large-Scale Answerer in Questioner's Mind for Visual Dialog Question Generation	Feb 22, 2019	Question GenerationQuestion-Generation	CodeCode Available	1
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning	Mar 20, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Audio Visual Scene-Aware Dialog (AVSD) Challenge at DSTC7	Jun 1, 2018	Video DescriptionVisual Dialog	CodeCode Available	1
Multi-View Attention Network for Visual Dialog	Apr 29, 2020	Visual Dialog	CodeCode Available	1
VD-BERT: A Unified Vision and Dialog Transformer with BERT	Apr 28, 2020	Answer GenerationVisual Dialog	CodeCode Available	1
VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution	May 29, 2022	AI Agentcoreference-resolution	CodeCode Available	1
Visual Dialogue State Tracking for Question Generation	Nov 12, 2019	Dialogue State TrackingQuestion Generation	CodeCode Available	1
Reasoning Visual Dialog with Sparse Graph Learning and Knowledge Transfer	Apr 14, 2020	Graph LearningGraph structure learning	CodeCode Available	1
Hierarchical Question-Image Co-Attention for Visual Question Answering	May 31, 2016	Visual DialogVisual Question Answering	CodeCode Available	1
Iterative Context-Aware Graph Inference for Visual Dialog	Apr 5, 2020	Graph AttentionGraph Embedding	CodeCode Available	1
Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline	Dec 5, 2019	Language ModellingRepresentation Learning	CodeCode Available	1
Building Task-Oriented Visual Dialog Systems Through Alternative Optimization Between Dialog Policy and Language Generation	Sep 6, 2019	DecoderReinforcement Learning	—Unverified	0
Multimodal Hierarchical Reinforcement Learning Policy for Task-Oriented Visual Dialog	May 8, 2018	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified	0
Multi-Modal Open-Domain Dialogue	Oct 2, 2020	Visual Dialog	—Unverified	0
Effective questions in referential visual dialogue	Jul 1, 2020	Visual Dialog	—Unverified	0
Modality-Balanced Models for Visual Dialogue	Jan 17, 2020	Visual Dialog	—Unverified	0
Adversarial Robustness of Visual Dialog	Jul 6, 2022	Adversarial RobustnessVisual Dialog	—Unverified	0
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations	Aug 13, 2024	dialog state trackingDialogue State Tracking	—Unverified	0
ENRICH4ALL: A First Luxembourgish BERT Model for a Multilingual Chatbot	Jun 1, 2022	ChatbotLanguage Modeling	—Unverified	0
Gold Seeker: Information Gain from Policy Distributions for Goal-oriented Vision-and-Langauge Reasoning	Dec 16, 2018	Reinforcement LearningVisual Dialog	—Unverified	0
Image-Question-Answer Synergistic Network for Visual Dialog	Feb 26, 2019	Visual Dialog	—Unverified	0
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified	0
Modeling Coreference Relations in Visual Dialog	Mar 6, 2022	Question AnsweringVisual Dialog	—Unverified	0
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog	Feb 1, 2019	Question AnsweringVisual Dialog	—Unverified	0
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions	Jan 17, 2022	Video CaptioningVisual Dialog	—Unverified	0
A Generative Adversarial Density Estimator	Jun 1, 2019	Density EstimationVisual Dialog	—Unverified	0
Learning to Ground Visual Objects for Visual Dialog	Sep 13, 2021	Visual Dialog	—Unverified	0
Grounded Agreement Games: Emphasizing Conversational Grounding in Visual Dialogue Settings	Aug 29, 2019	ChatbotVisual Dialog	—Unverified	0
Are You Talking to Me? Reasoned Visual Dialog Generation through Adversarial Learning	Nov 21, 2017	Question AnsweringReinforcement Learning	—Unverified	0
Granular Multimodal Attention Networks for Visual Dialog	Oct 13, 2019	Visual Dialog	—Unverified	0
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog	Sep 17, 2021	coreference-resolutionCoreference Resolution	—Unverified	0
Learning Goal-Oriented Visual Dialog Agents: Imitating and Surpassing Analytic Experts	Jul 24, 2019	Imitation Learningreinforcement-learning	—Unverified	0
Making History Matter: History-Advantage Sequence Training for Visual Dialog	Feb 25, 2019	Answer GenerationDecoder	—Unverified	0
How to Fool Systems and Humans in Visually Grounded Interaction: A Case Study on Adversarial Attacks on Visual Dialog	Jan 16, 2022	Visual Dialog	—Unverified	0
ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report	Jul 13, 2024	Explanation GenerationLanguage Modeling	—Unverified	0
Generative Visual Dialogue System via Adaptive Reasoning and Weighted Likelihood Estimation	Feb 26, 2019	Visual Dialog	—Unverified	0
Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning	Apr 15, 2022	Contrastive LearningQuestion Answering	—Unverified	0
FlipDial: A Generative Model for Two-Way Visual Dialogue	Feb 11, 2018	Visual DialogVocal Bursts Valence Prediction	—Unverified	0
Connecting Language and Vision to Actions	Jul 1, 2018	Image CaptioningLanguage Modeling	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified