Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1351–1400 of 2177 papers

Title	Date	Tasks	Status
Separate and Locate: Rethink the Text in Text-based Visual Question Answering	Aug 31, 2023	Optical Character Recognition (OCR)Position	CodeCode Available
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception	Aug 31, 2023	Activity RecognitionHuman Activity Recognition	—Unverified
DLIP: Distilling Language-Image Pre-training	Aug 24, 2023	Image CaptioningImage-text Retrieval	—Unverified
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE	Aug 23, 2023	Image-text matchingImage-text Retrieval	—Unverified
SCULPT: Shape-Conditioned Unpaired Learning of Pose-dependent Clothed and Textured Human Meshes	Aug 21, 2023	AttributeQuestion Answering	—Unverified
VQA Therapy: Exploring Answer Differences by Visually Grounding Answers	Aug 21, 2023	Question AnsweringVisual Question Answering	CodeCode Available
Generic Attention-model Explainability by Weighted Relevance Accumulation	Aug 20, 2023	Image CaptioningQuestion Answering	—Unverified
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models	Aug 18, 2023	Image-text matchingObject Localization	—Unverified
Learning the meanings of function words from grounded language using a visual question answering model	Aug 16, 2023	Logical ReasoningQuestion Answering	CodeCode Available
TIJO: Trigger Inversion with Joint Optimization for Defending Multimodal Backdoored Models	Aug 7, 2023	backdoor defenseobject-detection	CodeCode Available
RealCQA: Scientific Chart Question Answering as a Test-bed for First-Order Logic	Aug 3, 2023	Chart Question AnsweringFormal Logic	CodeCode Available
ELIXR: Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders	Aug 2, 2023	Contrastive LearningQuestion Answering	—Unverified
Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering	Jul 28, 2023	Question AnsweringVisual Question Answering	CodeCode Available
BARTPhoBEiT: Pre-trained Sequence-to-Sequence and Image Transformers Models for Vietnamese Visual Question Answering	Jul 28, 2023	Question AnsweringVietnamese Visual Question Answering	—Unverified
LOIS: Looking Out of Instance Semantics for Visual Question Answering	Jul 26, 2023	Question AnsweringVisual Question Answering	—Unverified
Robust Visual Question Answering: Datasets, Methods, and Future Challenges	Jul 21, 2023	Question AnsweringVisual Question Answering	—Unverified
A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading	Jul 19, 2023	Medical Image AnalysisQuestion Answering	—Unverified
Generative Visual Question Answering	Jul 18, 2023	Generative Visual Question AnsweringQuestion Answering	—Unverified
Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation	Jul 18, 2023	Image GenerationQuestion Answering	—Unverified
Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving	Jul 18, 2023	Autonomous DrivingModel Selection	CodeCode Available
PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese	Jul 17, 2023	Question AnsweringVietnamese Visual Question Answering	—Unverified
A scoping review on multimodal deep learning in biomedical images and texts	Jul 14, 2023	Cross-Modal RetrievalDecision Making	—Unverified
Structure Guided Multi-modal Pre-trained Transformer for Knowledge Graph Reasoning	Jul 6, 2023	Knowledge GraphsQuestion Answering	—Unverified
UIT-Saviors at MEDVQA-GI 2023: Improving Multimodal Learning with Image Enhancement for Gastrointestinal Visual Question Answering	Jul 6, 2023	DiagnosticImage Enhancement	—Unverified
Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering	Jun 28, 2023	Passage RetrievalQuestion Answering	CodeCode Available
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input	Jun 25, 2023	DiversityImage-text Retrieval	—Unverified
Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck	Jun 25, 2023	object-detectionObject Detection	—Unverified
TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter	Jun 22, 2023	Question AnsweringRetrieval	CodeCode Available
Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories	Jun 15, 2023	Question AnsweringRetrieval	—Unverified
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified
Safeguarding Data in Multimodal AI: A Differentially Private Approach to CLIP Training	Jun 13, 2023	image-classificationImage Classification	CodeCode Available
Visual Question Answering (VQA) on Images with Superimposed Text	Jun 13, 2023	Question AnsweringVisual Question Answering	—Unverified
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified
Knowledge Detection by Relevant Question and Image Attributes in Visual Question Answering	Jun 8, 2023	Question AnsweringRetrieval	—Unverified
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes	Jun 4, 2023	Common Sense ReasoningQuestion Answering	—Unverified
LiT-4-RSVQA: Lightweight Transformer-based Visual Question Answering in Remote Sensing	Jun 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data	Jun 1, 2023	Anomaly DetectionImage Generation	—Unverified
Overcoming Language Bias in Remote Sensing Visual Question Answering via Adversarial Training	Jun 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA	May 31, 2023	counterfactualCounterfactual Inference	—Unverified
Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models	May 31, 2023	Question AnsweringVisual Question Answering	—Unverified
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge	May 30, 2023	Answer SelectionQuestion Answering	—Unverified
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available
Modularized Zero-shot VQA with Pre-trained Models	May 27, 2023	object-detectionObject Detection	CodeCode Available
Zero-shot Visual Question Answering with Language Model Feedback	May 26, 2023	Language ModelingLanguage Modelling	CodeCode Available
Mindstorms in Natural Language-Based Societies of Mind	May 26, 2023	3D GenerationImage Captioning	—Unverified
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions	May 24, 2023	ObjectQuestion Answering	—Unverified
Measuring Faithful and Plausible Visual Grounding in VQA	May 24, 2023	Question AnsweringVisual Grounding	CodeCode Available
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought	May 24, 2023	Image CaptioningLanguage Modelling	—Unverified
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering	May 24, 2023	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 28 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified