Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 118 papers

Title	Date	Tasks	Status	Hype
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	Mar 27, 2024	Image ClassificationImage Comprehension	CodeCode Available	7
Hawk: Learning to Understand Open-World Video Anomalies	May 27, 2024	Anomaly DetectionQuestion Answering	CodeCode Available	3
Unified Multimodal Model with Unlikelihood Training for Visual Dialog	Nov 23, 2022	Answer GenerationChatbot	CodeCode Available	1
Video Dialog as Conversation about Objects Living in Space-Time	Jul 8, 2022	ObjectRelational Reasoning	CodeCode Available	1
VD-PCR: Improving Visual Dialog with Pronoun Coreference Resolution	May 29, 2022	AI Agentcoreference-resolution	CodeCode Available	1
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training	May 25, 2022	Conditional Text GenerationOut-of-Distribution Detection	CodeCode Available	1
Ensemble of MRR and NDCG models for Visual Dialog	Apr 15, 2021	AI AgentVisual Dialog	CodeCode Available	1
Where Are You? Localization from Embodied Dialog	Nov 16, 2020	NavigateVisual Dialog	CodeCode Available	1
History for Visual Dialog: Do we really need it?	May 8, 2020	Visual Dialog	CodeCode Available	1
Multi-View Attention Network for Visual Dialog	Apr 29, 2020	Visual Dialog	CodeCode Available	1
VD-BERT: A Unified Vision and Dialog Transformer with BERT	Apr 28, 2020	Answer GenerationVisual Dialog	CodeCode Available	1
Reasoning Visual Dialog with Sparse Graph Learning and Knowledge Transfer	Apr 14, 2020	Graph LearningGraph structure learning	CodeCode Available	1
Iterative Context-Aware Graph Inference for Visual Dialog	Apr 5, 2020	Graph AttentionGraph Embedding	CodeCode Available	1
Large-scale Pretraining for Visual Dialog: A Simple State-of-the-Art Baseline	Dec 5, 2019	Language ModellingRepresentation Learning	CodeCode Available	1
An Annotated Corpus of Reference Resolution for Interpreting Common Grounding	Nov 18, 2019	Coreference ResolutionGoal-Oriented Dialog	CodeCode Available	1
Visual Dialogue State Tracking for Question Generation	Nov 12, 2019	Dialogue State TrackingQuestion Generation	CodeCode Available	1
Large-Scale Answerer in Questioner's Mind for Visual Dialog Question Generation	Feb 22, 2019	Question GenerationQuestion-Generation	CodeCode Available	1
Audio Visual Scene-Aware Dialog (AVSD) Challenge at DSTC7	Jun 1, 2018	Video DescriptionVisual Dialog	CodeCode Available	1
Answerer in Questioner's Mind: Information Theoretic Approach to Goal-Oriented Visual Dialog	Feb 12, 2018	Goal-Oriented DialogReinforcement Learning	CodeCode Available	1
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning	Mar 20, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Visual Dialog	Nov 26, 2016	AI AgentChatbot	CodeCode Available	1
Hierarchical Question-Image Co-Attention for Visual Question Answering	May 31, 2016	Visual DialogVisual Question Answering	CodeCode Available	1
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Mar 3, 2025	Contrastive LearningText Retrieval	—Unverified	0
V^2Dial: Unification of Video and Visual Dialog via Multimodal Experts	Jan 1, 2025	Contrastive LearningText Retrieval	—Unverified	0
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations	Aug 13, 2024	dialog state trackingDialogue State Tracking	—Unverified	0

Show:10 25 50

← PrevPage 1 of 5Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified