Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1301–1350 of 2167 papers

Title	Date	Tasks	Status
Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests	Dec 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
Semi-supervised Learning of Perceptual Video Quality by Generating Consistent Pairwise Pseudo-Ranks	Nov 30, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Optimizing Explanations by Network Canonization and Hyperparameter Search	Nov 30, 2022	Explainable Artificial Intelligence (XAI)image-classification	—Unverified
PiggyBack: Pretrained Visual Question Answering Environment for Backing up Non-deep Learning Professionals	Nov 29, 2022	Deep LearningQuestion Answering	—Unverified
Neuro-Symbolic Spatio-Temporal Reasoning	Nov 28, 2022	AI AgentImage Segmentation	—Unverified
Look, Read and Ask: Learning to Ask Questions by Reading Text in Images	Nov 23, 2022	Optical Character Recognition (OCR)Question Answering	—Unverified
A Short Survey of Systematic Generalization	Nov 22, 2022	SurveySystematic Generalization	—Unverified
Cross-Modal Contrastive Learning for Robust Reasoning in VQA	Nov 21, 2022	Contrastive LearningQuestion Answering	CodeCode Available
Enhancing Self-Consistency and Performance of Pre-Trained Language Models through Natural Language Inference	Nov 21, 2022	Natural Language InferenceQuestion Answering	—Unverified
A survey on knowledge-enhanced multimodal learning	Nov 19, 2022	Conditional Image GenerationFactual Visual Question Answering	—Unverified
CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering	Nov 19, 2022	Continual LearningQuestion Answering	—Unverified
Text-Aware Dual Routing Network for Visual Question Answering	Nov 17, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
AlignVE: Visual Entailment Recognition Based on Alignment Relations	Nov 16, 2022	Question AnsweringRelation	—Unverified
Visually Grounded VQA by Lattice-based Retrieval	Nov 15, 2022	Information RetrievalQuestion Answering	CodeCode Available
Why Did the Chicken Cross the Road? Rephrasing and Analyzing Ambiguous Questions in VQA	Nov 14, 2022	Question GenerationQuestion-Generation	CodeCode Available
Learning to Answer Multilingual and Code-Mixed Questions	Nov 14, 2022	AI AgentQuestion Answering	—Unverified
MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual Question Answering	Nov 11, 2022	Medical Visual Question AnsweringQuestion Answering	—Unverified
Watching the News: Towards VideoQA Models that can Read	Nov 10, 2022	Question AnsweringVideo Question Answering	—Unverified
Towards Reasoning-Aware Explainable VQA	Nov 9, 2022	DecoderExplanation Generation	—Unverified
ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation	Nov 9, 2022	Contrastive LearningDecoder	—Unverified
CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering	Nov 7, 2022	Add - POAdd - PQ	CodeCode Available
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering	Oct 26, 2022	Question AnsweringVisual Question Answering	CodeCode Available
What's Different between Visual Question Answering for Machine "Understanding" Versus for Accessibility?	Oct 26, 2022	BenchmarkingQuestion Answering	CodeCode Available
Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems	Oct 26, 2022	Question AnsweringVisual Question Answering	—Unverified
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision	Oct 24, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data	Oct 23, 2022	Image CaptioningImage-text Retrieval	—Unverified
Image Semantic Relation Generation	Oct 19, 2022	Image RetrievalImage Segmentation	—Unverified
Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering	Oct 18, 2022	Passage RetrievalQuestion Answering	—Unverified
Aligning MAGMA by Few-Shot Learning and Finetuning	Oct 18, 2022	Few-Shot LearningImage Captioning	—Unverified
Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training	Oct 17, 2022	Image CaptioningNetwork Interpretation	CodeCode Available
DCVQE: A Hierarchical Transformer for Video Quality Assessment	Oct 10, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified
HVS Revisited: A Comprehensive Video Quality Assessment Framework	Oct 9, 2022	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning	Oct 4, 2022	Image CaptioningSentence	CodeCode Available
Enhancing Interpretability and Interactivity in Robot Manipulation: A Neurosymbolic Approach	Oct 3, 2022	Referring ExpressionRobot Manipulation	CodeCode Available
On the Effects of Video Grounding on Language Models	Oct 1, 2022	Image CaptioningQuestion Answering	—Unverified
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering	Oct 1, 2022	Medical Visual Question AnsweringQuestion Answering	CodeCode Available
Dual Capsule Attention Mask Network with Mutual Learning for Visual Question Answering	Oct 1, 2022	Question AnsweringVisual Question Answering	—Unverified
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering	Sep 30, 2022	Continual LearningQuestion Answering	CodeCode Available
RepsNet: Combining Vision with Language for Automated Medical Reports	Sep 27, 2022	Contrastive LearningDecoder	—Unverified
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering	Sep 21, 2022	Image CaptioningOptical Character Recognition (OCR)	—Unverified
Continual VQA for Disaster Response Systems	Sep 21, 2022	Disaster ResponseManagement	CodeCode Available
Overcoming Language Priors in Visual Question Answering via Distinguishing Superficially Similar Instances	Sep 18, 2022	AttributeQuestion Answering	CodeCode Available
OmniVL:One Foundation Model for Image-Language and Video-Language Tasks	Sep 15, 2022	Action ClassificationAction Recognition	—Unverified
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	—Unverified
MUST-VQA: MUltilingual Scene-text VQA	Sep 14, 2022	Question AnsweringVisual Question Answering	—Unverified
PaLI: A Jointly-Scaled Multilingual Language-Image Model	Sep 14, 2022	DecoderFew-Shot Image Classification	—Unverified

Show:10 25 50

← PrevPage 27 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	InternVL-C	Accuracy	81.2	—	Unverified
10	Lyrics	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified