Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 118 papers

Title	Date	Tasks	Status	Hype
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified	0
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Jan 1, 2025	Contrastive LearningText Retrieval	—Unverified	0
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations	Aug 13, 2024	dialog state trackingDialogue State Tracking	—Unverified	0
ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report	Jul 13, 2024	Explanation GenerationLanguage Modeling	—Unverified	0
Hawk: Learning to Understand Open-World Video Anomalies	May 27, 2024	Anomaly DetectionQuestion Answering	CodeCode Available	3
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	Mar 27, 2024	Image ClassificationImage Comprehension	CodeCode Available	7
FlexCap: Describe Anything in Images in Controllable Detail	Mar 18, 2024	AttributeDense Captioning	—Unverified	0
VD-GR: Boosting Visual Dialog with Cascaded Spatial-Temporal Multi-Modal GRaphs	Oct 25, 2023	Visual Dialog	—Unverified	0
Collecting Visually-Grounded Dialogue with A Game Of Sorts	Sep 10, 2023	Coreference ResolutionImage Retrieval	CodeCode Available	0
Affective Visual Dialog: A Large-Scale Benchmark for Emotional Reasoning Based on Visually Grounded Conversations	Aug 30, 2023	Explanation GenerationQuestion Answering	—Unverified	0
PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts	May 24, 2023	Dialogue State TrackingImage Retrieval	CodeCode Available	0
Unified Multimodal Model with Unlikelihood Training for Visual Dialog	Nov 23, 2022	Answer GenerationChatbot	CodeCode Available	1
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified	0
Knowledge Transfer with Visual Prompt in multi-modal Dialogue Understanding and Generation	Oct 1, 2022	Dialogue UnderstandingKnowledge Distillation	—Unverified	0
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	—Unverified	0
Video Dialog as Conversation about Objects Living in Space-Time	Jul 8, 2022	ObjectRelational Reasoning	CodeCode Available	1
Adversarial Robustness of Visual Dialog	Jul 6, 2022	Adversarial RobustnessVisual Dialog	—Unverified	0
ENRICH4ALL: A First Luxembourgish BERT Model for a Multilingual Chatbot	Jun 1, 2022	ChatbotLanguage Modeling	—Unverified	0
VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution	May 29, 2022	AI Agentcoreference-resolution	CodeCode Available	1
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training	May 25, 2022	Conditional Text GenerationOut-of-Distribution Detection	CodeCode Available	1
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog	May 1, 2022	Contrastive LearningRepresentation Learning	—Unverified	0
Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning	Apr 15, 2022	Contrastive LearningQuestion Answering	—Unverified	0
Reasoning with Multi-Structure Commonsense Knowledge in Visual Dialog	Apr 10, 2022	Logical ReasoningSentence	—Unverified	0
Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene	Mar 16, 2022	Visual Dialog	CodeCode Available	0
Modeling Coreference Relations in Visual Dialog	Mar 6, 2022	Question AnsweringVisual Dialog	—Unverified	0
VU-BERT: A Unified framework for Visual Dialog	Feb 22, 2022	Language ModelingLanguage Modelling	—Unverified	0
Discourse Analysis for Evaluating Coherence in Video Paragraph Captions	Jan 17, 2022	Video CaptioningVisual Dialog	—Unverified	0
How to Fool Systems and Humans in Visually Grounded Interaction: A Case Study on Adversarial Attacks on Visual Dialog	Jan 16, 2022	Visual Dialog	—Unverified	0
UNITER-Based Situated Coreference Resolution with Rich Multimodal Input	Dec 7, 2021	coreference-resolutionCoreference Resolution	CodeCode Available	0
Region under Discussion for visual dialog	Nov 1, 2021	Visual Dialog	—Unverified	0
Enriching Language Models with Visually-grounded Word Vectors and the Lancaster Sensorimotor Norms	Nov 1, 2021	Visual Dialog	—Unverified	0
Perceptual Score: What Data Modalities Does Your Model Perceive?	Oct 27, 2021	Question AnsweringVisual Dialog	CodeCode Available	0
ViDA-MAN: Visual Dialog with Digital Humans	Oct 26, 2021	speech-recognitionSpeech Recognition	—Unverified	0
Evaluating and Improving Interactions with Hazy Oracles	Oct 19, 2021	Object TrackingReferring Expression	—Unverified	0
The Impact of Answers in Referential Visual Dialog	Oct 1, 2021	Question GenerationQuestion-Generation	—Unverified	0
Variational Disentangled Attention for Regularized Visual Dialog	Sep 29, 2021	Question AnsweringVisual Dialog	—Unverified	0
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog	Sep 17, 2021	coreference-resolutionCoreference Resolution	—Unverified	0
Learning to Ground Visual Objects for Visual Dialog	Sep 13, 2021	Visual Dialog	—Unverified	0
Enhancing Visual Dialog Questioner with Entity-based Strategy Learning and Augmented Guesser	Sep 6, 2021	DiversityReinforcement Learning (RL)	CodeCode Available	0
SeqDialN: Sequential Visual Dialog Network in Joint Visual-Linguistic Representation Space	Aug 1, 2021	Visual Dialog	CodeCode Available	0
Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation	May 24, 2021	Referring ExpressionReferring Expression Comprehension	CodeCode Available	0
Ensemble of MRR and NDCG models for Visual Dialog	Apr 15, 2021	AI AgentVisual Dialog	CodeCode Available	1
Visual-Textual Alignment for Graph Inference in Visual Dialog	Dec 1, 2020	Visual Dialog	—Unverified	0
Where Are You? Localization from Embodied Dialog	Nov 16, 2020	NavigateVisual Dialog	CodeCode Available	1
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified	0
Multi-Modal Open-Domain Dialogue	Oct 2, 2020	Visual Dialog	—Unverified	0
Answer-Driven Visual State Estimator for Goal-Oriented Visual Dialogue	Oct 1, 2020	Question GenerationQuestion-Generation	CodeCode Available	0
SeqDialN: Sequential Visual Dialog Networks in Joint Visual-Linguistic Representation Space	Aug 2, 2020	Visual Dialog	CodeCode Available	0
Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data	Jul 24, 2020	Visual DialogVisual Question Answering (VQA)	CodeCode Available	0
Effective questions in referential visual dialogue	Jul 1, 2020	Visual Dialog	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified