Visual Dialog

Visual Dialog requires an AI agent to hold a meaningful dialog with humans in natural, conversational language about visual content. Specifically, given an image, a dialog history, and a follow-up question about the image, the task is to answer the question.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 76–100 of 118 papers

Title	Date	Tasks	Status
Enhancing Visual Dialog State Tracking through Iterative Object-Entity Alignment in Multi-Round Conversations	Aug 13, 2024	dialog state trackingDialogue State Tracking	—Unverified
ENRICH4ALL: A First Luxembourgish BERT Model for a Multilingual Chatbot	Jun 1, 2022	ChatbotLanguage Modeling	—Unverified
Enriching Language Models with Visually-grounded Word Vectors and the Lancaster Sensorimotor Norms	Nov 1, 2021	Visual Dialog	—Unverified
Ensemble based discriminative models for Visual Dialog Challenge 2018	Jan 15, 2020	PositionVisual Dialog	—Unverified
FlexCap: Describe Anything in Images in Controllable Detail	Mar 18, 2024	AttributeDense Captioning	—Unverified
FlipDial: A Generative Model for Two-Way Visual Dialogue	Feb 11, 2018	Visual DialogVocal Bursts Valence Prediction	—Unverified
Generative Visual Dialogue System via Adaptive Reasoning and Weighted Likelihood Estimation	Feb 26, 2019	Visual Dialog	—Unverified
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog	Sep 17, 2021	coreference-resolutionCoreference Resolution	—Unverified
Granular Multimodal Attention Networks for Visual Dialog	Oct 13, 2019	Visual Dialog	—Unverified
Grounded Agreement Games: Emphasizing Conversational Grounding in Visual Dialogue Settings	Aug 29, 2019	ChatbotVisual Dialog	—Unverified
How to Fool Systems and Humans in Visually Grounded Interaction: A Case Study on Adversarial Attacks on Visual Dialog	Jan 16, 2022	Visual Dialog	—Unverified
ICCV23 Visual-Dialog Emotion Explanation Challenge: SEU_309 Team Technical Report	Jul 13, 2024	Explanation GenerationLanguage Modeling	—Unverified
Image-Question-Answer Synergistic Network for Visual Dialog	Feb 26, 2019	Visual Dialog	—Unverified
Improving Cross-Modal Understanding in Visual Dialog via Contrastive Learning	Apr 15, 2022	Contrastive LearningQuestion Answering	—Unverified
Knowledge Transfer with Visual Prompt in multi-modal Dialogue Understanding and Generation	Oct 1, 2022	Dialogue UnderstandingKnowledge Distillation	—Unverified
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	—Unverified
Learning Goal-Oriented Visual Dialog Agents: Imitating and Surpassing Analytic Experts	Jul 24, 2019	Imitation Learningreinforcement-learning	—Unverified
Learning to Ground Visual Objects for Visual Dialog	Sep 13, 2021	Visual Dialog	—Unverified
Making History Matter: History-Advantage Sequence Training for Visual Dialog	Feb 25, 2019	Answer GenerationDecoder	—Unverified
VD-GR: Boosting Visual Dialog with Cascaded Spatial-Temporal Multi-Modal GRaphs	Oct 25, 2023	Visual Dialog	—Unverified
Modality-Balanced Models for Visual Dialogue	Jan 17, 2020	Visual Dialog	—Unverified
Modeling Coreference Relations in Visual Dialog	Mar 6, 2022	Question AnsweringVisual Dialog	—Unverified
Multimodal Hierarchical Reinforcement Learning Policy for Task-Oriented Visual Dialog	May 8, 2018	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Multi-Modal Open-Domain Dialogue	Oct 2, 2020	Visual Dialog	—Unverified
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog	Feb 1, 2019	Question AnsweringVisual Dialog	—Unverified

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets Visual Dialog v1.0 test-std VisDial v0.9 val VisDial v1.0 test-std BlendedSkillTalk ConvAI2 EmpatheticDialogues Image-Chat Wizard of Wikipedia

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	Single	NDCG (x 100)	78.7	—	Unverified
2	P1P2+Distill+Ensemble	NDCG (x 100)	77.92	—	Unverified
3	Ensemble + Fine-tuning	NDCG (x 100)	76.43	—	Unverified
4	ensemble, finetune	NDCG (x 100)	76.17	—	Unverified
5	VD-PCR	NDCG (x 100)	76.14	—	Unverified
6	Ensemble	NDCG (x 100)	75.35	—	Unverified
7	Ensemble + Finetune	NDCG (x 100)	74.88	—	Unverified
8	bert-double-stream-finetuning	NDCG (x 100)	74.62	—	Unverified
9	CE-finetuned, single model	NDCG (x 100)	74.47	—	Unverified
10	2	NDCG (x 100)	73.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	9xFGA (VGG)	MRR	68.92	—	Unverified
2	DAN	MRR	66.38	—	Unverified
3	CorefNMN (ResNet-152)	MRR	64.1	—	Unverified
4	CoAtt	MRR	63.98	—	Unverified
5	CorefNMN	MRR	63.6	—	Unverified
6	DualVD	MRR	62.94	—	Unverified
7	SF-QIH-se-2	MRR	62.42	—	Unverified
8	HCIAE-NP-ATT	MRR	62.22	—	Unverified
9	HieCoAtt-QI	MRR	57.88	—	Unverified
10	AMEM	R@1	48.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	5xFGA + LS	NDCG	64.04	—	Unverified
2	5xFGA + LS*+	MRR	0.71	—	Unverified
3	Two-Step	MRR	0.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	1.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	40	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Multi-Modal BlenderBot	BLEU-4	2.2	—	Unverified