Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1251–1300 of 2167 papers

Title	Date	Tasks	Status
FVQA 2.0: Introducing Adversarial Samples into Fact-based Visual Question Answering	Mar 19, 2023	Common Sense ReasoningInformation Retrieval	—Unverified
Logical Implications for Visual Question Answering Consistency	Mar 16, 2023	Language ModelingLanguage Modelling	CodeCode Available
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images	Mar 13, 2023	Common Sense ReasoningExplanation Generation	—Unverified
MRET: Multi-resolution Transformer for Video Quality Assessment	Mar 13, 2023	Video Quality AssessmentVideo Recognition	—Unverified
Polar-VQA: Visual Question Answering on Remote Sensed Ice sheet Imagery from Polar Region	Mar 13, 2023	Question AnsweringVisual Question Answering	—Unverified
Vision-Language Models as Success Detectors	Mar 13, 2023	Question AnsweringVisual Question Answering	—Unverified
MuLTI: Efficient Video-and-Language Understanding with Text-Guided MultiWay-Sampler and Multiple Choice Modeling	Mar 10, 2023	Multi-Label ClassificationMUlTI-LABEL-ClASSIFICATION	—Unverified
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning	Mar 10, 2023	Few-Shot Image Classificationimage-classification	—Unverified
Toward Unsupervised Realistic Visual Question Answering	Mar 9, 2023	Question AnsweringVisual Question Answering	—Unverified
Interpretable Visual Question Answering Referring to Outside Knowledge	Mar 8, 2023	DiversityImage Captioning	—Unverified
Graph Neural Networks in Vision-Language Image Understanding: A Survey	Mar 7, 2023	Image CaptioningImage Retrieval	—Unverified
Knowledge-Based Counterfactual Queries for Visual Question Answering	Mar 5, 2023	counterfactualDecision Making	—Unverified
VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning	Mar 5, 2023	Answer GenerationEntity Alignment	CodeCode Available
Audio-Visual Quality Assessment for User Generated Content: Database and Method	Mar 4, 2023	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
VQA with Cascade of Self- and Co-Attention Blocks	Feb 28, 2023	Question AnsweringVisual Question Answering	—Unverified
Medical visual question answering using joint self-supervised learning	Feb 25, 2023	DecoderDiversity	—Unverified
EVJVQA Challenge: Multilingual Visual Question Answering	Feb 23, 2023	Language ModelingLanguage Modelling	—Unverified
VinVL+L: Enriching Visual Representation with Location Context in VQA	Feb 22, 2023	Question AnsweringTAG	CodeCode Available
Few-shot Multimodal Multitask Multilingual Learning	Feb 19, 2023	Few-Shot LearningIn-Context Learning	—Unverified
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning	Feb 19, 2023	Graph LearningMedical Visual Question Answering	—Unverified
Bridge Damage Cause Estimation Using Multiple Images Based on Visual Question Answering	Feb 18, 2023	Question AnsweringVisual Question Answering	—Unverified
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Feb 11, 2023	Image-text RetrievalKnowledge Graphs	CodeCode Available
Is Multimodal Vision Supervision Beneficial to Language?	Feb 10, 2023	Image RetrievalNatural Language Understanding	CodeCode Available
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models	Jan 28, 2023	Out-of-Distribution GeneralizationQuestion Answering	CodeCode Available
Towards a Unified Model for Generating Answers and Explanations in Visual Question Answering	Jan 25, 2023	DecoderExplanation Generation	—Unverified
HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images	Jan 23, 2023	AttributeQuestion Answering	—Unverified
Towards Models that Can See and Read	Jan 18, 2023	DecoderImage Captioning	—Unverified
Curriculum Script Distillation for Multilingual Visual Question Answering	Jan 17, 2023	Question AnsweringVisual Question Answering	—Unverified
Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks	Jan 12, 2023	Cross-Modal RetrievalOpen-Ended Question Answering	CodeCode Available
Adaptively Clustering Neighbor Elements for Image-Text Generation	Jan 5, 2023	ClusteringDecoder	CodeCode Available
PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3	Jan 1, 2023	Image CaptioningQuestion Answering	—Unverified
Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge	Jan 1, 2023	Decision MakingQuestion Answering	CodeCode Available
Dynamic Inference With Grounding Based Vision and Language Models	Jan 1, 2023	Language ModellingReferring Expression	—Unverified
RMLVQA: A Margin Loss Approach for Visual Question Answering With Language Biases	Jan 1, 2023	Question AnsweringVisual Question Answering	—Unverified
From Images to Textual Prompts: Zero-Shot Visual Question Answering With Frozen Large Language Models	Jan 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering	Jan 1, 2023	Continual LearningLanguage Modelling	—Unverified
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training	Dec 30, 2022	cross-modal alignmentTGIF-Action	—Unverified
VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and Challenges	Dec 26, 2022	Representation LearningVisual Question Answering (VQA)	—Unverified
When are Lemons Purple? The Concept Association Bias of Vision-Language Models	Dec 22, 2022	Attributeimage-classification	—Unverified
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models	Dec 21, 2022	Question AnsweringVisual Question Answering	CodeCode Available
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering	Dec 21, 2022	Data AugmentationDecision Making	—Unverified
DePlot: One-shot visual language reasoning by plot-to-table translation	Dec 20, 2022	Chart Question AnsweringFactual Inconsistency Detection in Chart Captioning	—Unverified
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason?	Dec 20, 2022	Question AnsweringRepresentation Learning	—Unverified
MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering	Dec 19, 2022	Chart Question AnsweringData Summarization	—Unverified
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering	Dec 16, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
CLIPPO: Image-and-Language Understanding from Pixels Only	Dec 15, 2022	Contrastive Learningimage-classification	—Unverified
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory	Dec 10, 2022	Image CaptioningLanguage Modeling	CodeCode Available
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners	Dec 9, 2022	Question AnsweringRetrieval	—Unverified
Review of Ansatz Designing Techniques for Variational Quantum Algorithms	Dec 7, 2022	Visual Question Answering (VQA)	—Unverified
ParsVQA-Caps: A Benchmark for Visual Question Answering and Image Captioning in Persian	Dec 7, 2022	Image CaptioningQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 26 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified