Visual Question Answering (VQA)

Visual Question Answering (VQA) is a task in computer vision that involves answering questions about an image. The goal of VQA is to teach machines to understand the content of an image and answer questions about it in natural language.

Image Source: visualqa.org

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 2167 papers

Title	Date	Tasks	Status
Pyramid Coder: Hierarchical Code Generator for Compositional Visual Question Answering	Jul 30, 2024	Code GenerationQuestion Answering	—Unverified
Take A Step Back: Rethinking the Two Stages in Visual Reasoning	Jul 29, 2024	Logical ReasoningQuestion Answering	—Unverified
Improved Few-Shot Image Classification Through Multiple-Choice Questions	Jul 23, 2024	ArticlesFew-Shot Image Classification	—Unverified
Exploring the Effectiveness of Object-Centric Representations in Visual Question Answering: Comparative Insights with Foundation Models	Jul 22, 2024	Question AnsweringRepresentation Learning	—Unverified
QuIIL at T3 challenge: Towards Automation in Life-Saving Intervention Procedures from First-Person View	Jul 18, 2024	Action AnticipationAction Recognition	CodeCode Available
ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data	Jul 17, 2024	Question AnsweringVisual Question Answering	—Unverified
Multimodal Reranking for Knowledge-Intensive Visual Question Answering	Jul 17, 2024	Answer GenerationQuestion Answering	—Unverified
EchoSight: Advancing Visual-Language Models with Wiki Knowledge	Jul 17, 2024	ArticlesQuestion Answering	—Unverified
TM-PATHVQA:90000+ Textless Multilingual Questions for Medical Visual Question Answering	Jul 16, 2024	Medical Visual Question AnsweringQuestion Answering	—Unverified
Extracting Training Data from Document-Based VQA Models	Jul 11, 2024	MemorizationQuestion Answering	—Unverified
Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images	Jul 11, 2024	Question AnsweringSegmentation	—Unverified
VQA-Diff: Exploiting VQA and Diffusion for Zero-Shot Image-to-3D Vehicle Asset Generation in Autonomous Driving	Jul 9, 2024	Autonomous DrivingImage to 3D	—Unverified
Large Language Models Understand Layout	Jul 8, 2024	Question AnsweringVisual Question Answering	CodeCode Available
CLIPVQA:Video Quality Assessment via CLIP	Jul 6, 2024	Video Quality AssessmentVisual Question Answering (VQA)	CodeCode Available
Black-box Model Ensembling for Textual and Visual Question Answering via Information Fusion	Jul 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Visual Robustness Benchmark for Visual Question Answering (VQA)	Jul 3, 2024	Visual Question AnsweringVisual Question Answering (VQA)	CodeCode Available
BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs	Jul 3, 2024	Image CaptioningImage Generation	—Unverified
MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis	Jul 3, 2024	PositionQuestion Answering	—Unverified
D-Rax: Domain-specific Radiologic assistant leveraging multi-modal data and eXpert model predictions	Jul 2, 2024	DiagnosticInstruction Following	—Unverified
https://arxiv.org/abs/2407.00634	Jul 2, 2024	Video CaptioningVideo Description	CodeCode Available
Certainly Uncertain: A Benchmark and Metric for Multimodal Epistemic and Aleatoric Awareness	Jul 2, 2024	Image CaptioningQuestion Answering	—Unverified
μ-Bench: A Vision-Language Benchmark for Microscopy Understanding	Jul 1, 2024	Cell DetectionClassification	CodeCode Available
Hierarchical Memory for Long Video QA	Jun 30, 2024	GPUQuestion Answering	—Unverified
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs	Jun 28, 2024	RAGRetrieval-augmented Generation	—Unverified
Disentangling Knowledge-based and Visual Reasoning by Question Decomposition in KB-VQA	Jun 27, 2024	General KnowledgeQuestion Answering	—Unverified
RAVEN: Multitask Retrieval Augmented Vision-Language Learning	Jun 27, 2024	Image CaptioningRAG	—Unverified
Enhancing Continual Learning in Visual Question Answering with Modality-Aware Feature Distillation	Jun 27, 2024	Continual LearningQuestion Answering	CodeCode Available
On the Role of Visual Grounding in VQA	Jun 26, 2024	Visual GroundingVisual Question Answering (VQA)	—Unverified
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs	Jun 24, 2024	Question AnsweringVisual Question Answering	—Unverified
Priorformer: A UGC-VQA Method with content and distortion priors	Jun 24, 2024	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Losing Visual Needles in Image Haystacks: Vision Language Models are Easily Distracted in Short and Long Contexts	Jun 24, 2024	Mathematical ReasoningVisual Question Answering (VQA)	—Unverified
Tri-VQA: Triangular Reasoning Medical Visual Question Answering for Multi-Attribute Analysis	Jun 21, 2024	AttributeMedical Visual Question Answering	—Unverified
VGA: Vision GUI Assistant -- Minimizing Hallucinations through Image-Centric Fine-Tuning	Jun 20, 2024	Image ComprehensionQuestion Answering	CodeCode Available
Biomedical Visual Instruction Tuning with Clinician Preference Alignment	Jun 19, 2024	Instruction FollowingVisual Question Answering (VQA)	CodeCode Available
Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA	Jun 18, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model	Jun 15, 2024	Question AnsweringVideo Understanding	CodeCode Available
What is the Visual Cognition Gap between Humans and Multimodal LLMs?	Jun 14, 2024	object-detectionObject Detection	CodeCode Available
Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models	Jun 14, 2024	DecoderKnowledge Graphs	—Unverified
Optimizing Visual Question Answering Models for Driving: Bridging the Gap Between Human and Machine Attention Patterns	Jun 13, 2024	Autonomous DrivingQuestion Answering	—Unverified
CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark	Jun 10, 2024	DiversityQuestion Answering	—Unverified
Composition Vision-Language Understanding via Segment and Depth Anything Model	Jun 7, 2024	Question AnsweringVisual Question Answering (VQA)	CodeCode Available
Understanding Information Storage and Transfer in Multi-modal Large Language Models	Jun 6, 2024	Factual Visual Question AnsweringModel Editing	—Unverified
Diffusion-Refined VQA Annotations for Semi-Supervised Gaze Following	Jun 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available
Translation Deserves Better: Analyzing Translation Artifacts in Cross-lingual Visual Question Answering	Jun 4, 2024	Data AugmentationMachine Translation	—Unverified
Mixture of Rationale: Multi-Modal Reasoning Mixture for Visual Question Answering	Jun 3, 2024	DiversityQuestion Answering	—Unverified
Selectively Answering Visual Questions	Jun 3, 2024	AvgIn-Context Learning	—Unverified
VQA Training Sets are Self-play Environments for Generating Few-shot Pools	May 30, 2024	Question AnsweringVisual Question Answering	—Unverified
Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks	May 29, 2024	Question AnsweringVisual Question Answering	—Unverified
PTM-VQA: Efficient Video Quality Assessment Leveraging Diverse PreTrained Models from the Wild	May 28, 2024	Video Quality AssessmentVisual Question Answering (VQA)	—Unverified
Privacy-Aware Visual Language Models	May 27, 2024	Visual Question Answering (VQA)	—Unverified

Show:10 25 50

← PrevPage 20 of 44Next →

All datasets GQA Test2019 VQA v2 test-dev VQA v2 test-std OK-VQA MSVD-QA DocVQA test MSRVTT-QA InfographicVQA GQA test-dev VizWiz 2020 VQA A-OKVQA CLEVR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	Accuracy	89.3	—	Unverified
2	DREAM+Unicoder-VL (MSRA)	Accuracy	76.04	—	Unverified
3	TRRNet (Ensemble)	Accuracy	74.03	—	Unverified
4	MIL-nbgao	Accuracy	73.81	—	Unverified
5	Kakao Brain	Accuracy	73.33	—	Unverified
6	Coarse-to-Fine Reasoning, Single Model	Accuracy	72.14	—	Unverified
7	270	Accuracy	70.23	—	Unverified
8	NSM ensemble (updated)	Accuracy	67.55	—	Unverified
9	VinVL-DPT	Accuracy	64.92	—	Unverified
10	VinVL+L	Accuracy	64.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PaLI	Accuracy	84.3	—	Unverified
2	BEiT-3	Accuracy	84.19	—	Unverified
3	VLMo	Accuracy	82.78	—	Unverified
4	ONE-PEACE	Accuracy	82.6	—	Unverified
5	mPLUG (Huge)	Accuracy	82.43	—	Unverified
6	CuMo-7B	Accuracy	82.2	—	Unverified
7	X2-VLM (large)	Accuracy	81.9	—	Unverified
8	MMU	Accuracy	81.26	—	Unverified
9	Lyrics	Accuracy	81.2	—	Unverified
10	InternVL-C	Accuracy	81.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BEiT-3	overall	84.03	—	Unverified
2	mPLUG-Huge	overall	83.62	—	Unverified
3	ONE-PEACE	overall	82.52	—	Unverified
4	X2-VLM (large)	overall	81.8	—	Unverified
5	VLMo	overall	81.3	—	Unverified
6	SimVLM	overall	80.34	—	Unverified
7	X2-VLM (base)	overall	80.2	—	Unverified
8	VAST	overall	80.19	—	Unverified
9	VALOR	overall	78.62	—	Unverified
10	Prompt Tuning	overall	78.53	—	Unverified