Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–800 of 2177 papers

Title	Date	Tasks	Status	Hype
Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering	Apr 16, 2024	Language ModellingPrediction	—Unverified	0
Self-Supervised Visual Preference Alignment	Apr 16, 2024	8kMM-Vet	CodeCode Available	2
Find The Gap: Knowledge Base Reasoning For Visual Question Answering	Apr 16, 2024	Question AnsweringRetrieval	—Unverified	0
HOI-Ref: Hand-Object Interaction Referral in Egocentric Vision	Apr 15, 2024	ObjectQuestion Answering	—Unverified	0
Bridging Vision and Language Spaces with Assignment Prediction	Apr 15, 2024	Cross-Modal RetrievalImage Captioning	CodeCode Available	0
Enhancing Visual Question Answering through Question-Driven Image Captions as Prompts	Apr 12, 2024	Image CaptioningQuestion Answering	CodeCode Available	1
Learning to Localize Objects Improves Spatial Reasoning in Visual-LLMs	Apr 11, 2024	DescriptiveHallucination	CodeCode Available	0
View Selection for 3D Captioning via Diffusion Ranking	Apr 11, 2024	3D Object CaptioningHallucination	CodeCode Available	3
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models	Apr 11, 2024	Language ModelingLanguage Modelling	CodeCode Available	9
Language Models Meet Anomaly Detection for Better Interpretability and Generalizability	Apr 11, 2024	Anomaly DetectionLanguage Modelling	CodeCode Available	0
InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4K HD	Apr 9, 2024	4kLanguage Modeling	CodeCode Available	0
OmniFusion Technical Report	Apr 9, 2024	MM-VetTextVQA	CodeCode Available	0
HAMMR: HierArchical MultiModal React agents for generic VQA	Apr 8, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified	0
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement	Apr 6, 2024	Image-text Retrievalobject-detection	—Unverified	0
Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models	Apr 6, 2024	MMEObject	CodeCode Available	0
Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning	Apr 6, 2024	Domain GeneralizationImage Retrieval	CodeCode Available	0
BuDDIE: A Business Document Dataset for Multi-task Information Extraction	Apr 5, 2024	Document Classificationdocument understanding	—Unverified	0
TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices	Apr 4, 2024	QuantizationQuestion Answering	—Unverified	0
Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns	Apr 3, 2024	Language ModelingLanguage Modelling	—Unverified	0
Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning	Apr 1, 2024	Image CaptioningInstruction Following	CodeCode Available	0
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs	Apr 1, 2024	Common Sense ReasoningObject	—Unverified	0
Evaluating Text-to-Visual Generation with Image-to-Text Generation	Apr 1, 2024	Image to textQuestion Answering	CodeCode Available	3
CausalChaos! Dataset for Comprehensive Causal Action Question Answering Over Longer Causal Chains Grounded in Dynamic Visual Scenes	Apr 1, 2024	Causal DiscoveryCausal Discovery in Video Reasoning	CodeCode Available	1
M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models	Mar 31, 2024	Image-text RetrievalLanguage Modeling	CodeCode Available	3
Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training	Mar 30, 2024	Contrastive LearningQuestion Answering	CodeCode Available	0
Uncovering Bias in Large Vision-Language Models with Counterfactuals	Mar 29, 2024	counterfactualQuestion Answering	—Unverified	0
VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis	Mar 29, 2024	HallucinationImage Captioning	CodeCode Available	2
Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models	Mar 29, 2024	Question AnsweringVisual Question Answering	CodeCode Available	2
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models	Mar 28, 2024	HallucinationQuestion Answering	CodeCode Available	1
Multi-Frame, Lightweight & Efficient Vision-Language Models for Question Answering in Autonomous Driving	Mar 28, 2024	Autonomous DrivingLanguage Modeling	CodeCode Available	2
Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models	Mar 27, 2024	Image ClassificationImage Comprehension	CodeCode Available	7
Beyond Embeddings: The Promise of Visual Table in Visual Reasoning	Mar 27, 2024	Representation LearningVisual Question Answering	CodeCode Available	1
Quantifying and Mitigating Unimodal Biases in Multimodal Large Language Models: A Causal Perspective	Mar 27, 2024	Question AnsweringVisual Question Answering	CodeCode Available	1
Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering	Mar 26, 2024	Decision MakingExplainable artificial intelligence	CodeCode Available	0
Visual Hallucination: Definition, Quantification, and Prescriptive Remediations	Mar 26, 2024	HallucinationImage Captioning	—Unverified	0
A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions	Mar 26, 2024	Gaze Target EstimationQuestion Answering	—Unverified	0
PropTest: Automatic Property Testing for Improved Visual Programming	Mar 25, 2024	Question AnsweringReferring Expression	—Unverified	0
Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA	Mar 25, 2024	Chart Question AnsweringData Augmentation	—Unverified	0
IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models	Mar 23, 2024	Common Sense ReasoningIn-Context Learning	CodeCode Available	1
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery	Mar 22, 2024	Language ModelingLanguage Modelling	—Unverified	0
MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis	Mar 22, 2024	Medical DiagnosisMedical Visual Question Answering	CodeCode Available	2
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models	Mar 22, 2024	Language ModellingLarge Language Model	CodeCode Available	2
Multi-Agent VQA: Exploring Multi-Agent Foundation Models in Zero-Shot Visual Question Answering	Mar 21, 2024	object-detectionObject Detection	CodeCode Available	1
Language Repository for Long Video Understanding	Mar 21, 2024	EgoSchemaQuestion Answering	CodeCode Available	1
MyVLM: Personalizing VLMs for User-Specific Queries	Mar 21, 2024	Image CaptioningLanguage Modelling	—Unverified	0
VL-Mamba: Exploring State Space Models for Multimodal Learning	Mar 20, 2024	Language ModelingLanguage Modelling	—Unverified	0
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified	0
HyperLLaVA: Dynamic Visual and Language Expert Tuning for Multimodal Large Language Models	Mar 20, 2024	MMEVisual Question Answering	CodeCode Available	1
WoLF: Wide-scope Large Language Model Framework for CXR Understanding	Mar 19, 2024	AnatomyInstruction Following	—Unverified	0
VL-ICL Bench: The Devil in the Details of Multimodal In-Context Learning	Mar 19, 2024	BenchmarkingImage Captioning	CodeCode Available	2

Show:10 25 50

← PrevPage 16 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified