Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1176–1200 of 2177 papers

Title	Date	Tasks	Status
HAMMR: HierArchical MultiModal React agents for generic VQA	Apr 8, 2024	Optical Character Recognition (OCR)Question Answering	—Unverified
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement	Apr 6, 2024	Image-text Retrievalobject-detection	—Unverified
Soft-Prompting with Graph-of-Thought for Multi-modal Representation Learning	Apr 6, 2024	Domain GeneralizationImage Retrieval	CodeCode Available
Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models	Apr 6, 2024	MMEObject	CodeCode Available
BuDDIE: A Business Document Dataset for Multi-task Information Extraction	Apr 5, 2024	Document Classificationdocument understanding	—Unverified
TinyVQA: Compact Multimodal Deep Neural Network for Visual Question Answering on Resource-Constrained Devices	Apr 4, 2024	QuantizationQuestion Answering	—Unverified
Enhancing Human-Computer Interaction in Chest X-ray Analysis using Vision and Language Model with Eye Gaze Patterns	Apr 3, 2024	Language ModelingLanguage Modelling	—Unverified
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs	Apr 1, 2024	Common Sense ReasoningObject	—Unverified
Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning	Apr 1, 2024	Image CaptioningInstruction Following	CodeCode Available
Design as Desired: Utilizing Visual Question Answering for Multimodal Pre-training	Mar 30, 2024	Contrastive LearningQuestion Answering	CodeCode Available
Uncovering Bias in Large Vision-Language Models with Counterfactuals	Mar 29, 2024	counterfactualQuestion Answering	—Unverified
A Gaze-grounded Visual Question Answering Dataset for Clarifying Ambiguous Japanese Questions	Mar 26, 2024	Gaze Target EstimationQuestion Answering	—Unverified
Visual Hallucination: Definition, Quantification, and Prescriptive Remediations	Mar 26, 2024	HallucinationImage Captioning	—Unverified
Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering	Mar 26, 2024	Decision MakingExplainable artificial intelligence	CodeCode Available
Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA	Mar 25, 2024	Chart Question AnsweringData Augmentation	—Unverified
PropTest: Automatic Property Testing for Improved Visual Programming	Mar 25, 2024	Question AnsweringReferring Expression	—Unverified
Surgical-LVLM: Learning to Adapt Large Vision-Language Model for Grounded Visual Question Answering in Robotic Surgery	Mar 22, 2024	Language ModelingLanguage Modelling	—Unverified
MyVLM: Personalizing VLMs for User-Specific Queries	Mar 21, 2024	Image CaptioningLanguage Modelling	—Unverified
VL-Mamba: Exploring State Space Models for Multimodal Learning	Mar 20, 2024	Language ModelingLanguage Modelling	—Unverified
Improved Baselines for Data-efficient Perceptual Augmentation of LLMs	Mar 20, 2024	Audio captioningImage Captioning	—Unverified
As Firm As Their Foundations: Can open-sourced foundation models be used to create adversarial examples for downstream tasks?	Mar 19, 2024	Adversarial AttackImage Captioning	—Unverified
WoLF: Wide-scope Large Language Model Framework for CXR Understanding	Mar 19, 2024	AnatomyInstruction Following	—Unverified
FlexCap: Describe Anything in Images in Controllable Detail	Mar 18, 2024	AttributeDense Captioning	—Unverified
Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis	Mar 18, 2024	In-Context LearningQuestion Answering	—Unverified
SpatialPIN: Enhancing Spatial Reasoning Capabilities of Vision-Language Models through Prompting and Interacting 3D Priors	Mar 18, 2024	HallucinationMotion Planning	—Unverified

Show:10 25 50

← PrevPage 48 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified