Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 401–425 of 2167 papers

Title	Date	Tasks	Status	Hype	Score
Learning to Discretely Compose Reasoning Module Networks for Video Captioning	Jul 17, 2020	DecoderQuestion Answering	CodeCode Available	1	5
Distilled Dual-Encoder Model for Vision-Language Understanding	Dec 16, 2021	Image to textmodel	CodeCode Available	1	5
A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA	Jun 30, 2022	Question AnsweringRetrieval	CodeCode Available	1	5
Can I Trust Your Answer? Visually Grounded Video Question Answering	Sep 4, 2023	Grounded Video Question AnsweringQuestion Answering	CodeCode Available	1	5
A Dataset and Baselines for Visual Question Answering on Art	Aug 28, 2020	Question AnsweringQuestion Generation	CodeCode Available	1	5
CrossGET: Cross-Guided Ensemble of Tokens for Accelerating Vision-Language Transformers	May 27, 2023	Image CaptioningImage Retrieval	CodeCode Available	1	5
Learning to Answer Visual Questions from Web Videos	May 10, 2022	Dataset GenerationQuestion Answering	CodeCode Available	1	5
Disentangling 3D Prototypical Networks For Few-Shot Concept Learning	Nov 6, 2020	3D geometry3D Object Detection	CodeCode Available	1	5
Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering	Jul 26, 2022	Causal InferenceQuestion Answering	CodeCode Available	1	5
Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models	Mar 10, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1	5
Calibrating Concepts and Operations: Towards Symbolic Reasoning on Real Images	Oct 1, 2021	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation	Jan 6, 2025	Language Model EvaluationLanguage Modeling	CodeCode Available	1	5
HIDRO-VQA: High Dynamic Range Oracle for Video Quality Assessment	Nov 18, 2023	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available	1	5
LIVE: Learnable In-Context Vector for Visual Question Answering	Jun 19, 2024	In-Context LearningQuestion Answering	CodeCode Available	1	5
Learning Cooperative Visual Dialog Agents with Deep Reinforcement Learning	Mar 20, 2017	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
LaTr: Layout-Aware Transformer for Scene-Text VQA	Dec 23, 2021	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1	5
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs	Nov 27, 2023	Adversarial RobustnessVisual Question Answering (VQA)	CodeCode Available	1	5
Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering	Jun 29, 2023	Answer GenerationQuestion Answering	CodeCode Available	1	5
Layout and Task Aware Instruction Prompt for Zero-shot Document Image Question Answering	Jun 1, 2023	Optical Character Recognition (OCR)Question Answering	CodeCode Available	1	5
Learning Situation Hyper-Graphs for Video Question Answering	Apr 18, 2023	DecoderQuestion Answering	CodeCode Available	1	5
PaLI-3 Vision Language Models: Smaller, Faster, Stronger	Oct 13, 2023	Chart Question AnsweringCross-Modal Retrieval	CodeCode Available	1	5
I Can't Believe There's No Images! Learning Visual Tasks Using only Language Supervision	Nov 17, 2022	Image CaptioningQuestion Answering	CodeCode Available	1	5
Hypergraph Transformer: Weakly-supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering	Apr 22, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Large-Scale Adversarial Training for Vision-and-Language Representation Learning	Jun 11, 2020	Image-text RetrievalQuestion Answering	CodeCode Available	1	5

Show:10 25 50

← PrevPage 17 of 87Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified