Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1126–1150 of 2177 papers

Title	Date	Tasks	Status
Selectively Answering Visual Questions	Jun 3, 2024	AvgIn-Context Learning	—Unverified
Video Question Answering for People with Visual Impairments Using an Egocentric 360-Degree Camera	May 30, 2024	Question AnsweringVideo Question Answering	—Unverified
VQA Training Sets are Self-play Environments for Generating Few-shot Pools	May 30, 2024	Question AnsweringVisual Question Answering	—Unverified
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals	May 30, 2024	counterfactualQuestion Answering	—Unverified
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification	May 29, 2024	HallucinationImage Captioning	—Unverified
Evaluating Zero-Shot GPT-4V Performance on 3D Visual Question Answering Benchmarks	May 29, 2024	Question AnsweringVisual Question Answering	—Unverified
Data-augmented phrase-level alignment for mitigating object hallucination	May 28, 2024	Data AugmentationHallucination	—Unverified
MMCTAgent: Multi-modal Critical Thinking Agent Framework for Complex Visual Reasoning	May 28, 2024	Decision MakingVideo Understanding	—Unverified
Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models	May 24, 2024	Question AnsweringVisual Question Answering	—Unverified
Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning	May 23, 2024	Logical Reasoning Question AnsweringSpatial Reasoning	CodeCode Available
AlignGPT: Multi-modal Large Language Models with Adaptive Alignment Capability	May 23, 2024	cross-modal alignmentLanguage Modelling	—Unverified
SearchLVLMs: A Plug-and-Play Framework for Augmenting Large Vision-Language Models by Searching Up-to-Date Internet Knowledge	May 23, 2024	Question AnsweringRAG	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering	May 21, 2024	DiversityInformation Retrieval	CodeCode Available
Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning	May 19, 2024	Multimodal ReasoningQuestion Answering	—Unverified
EyeFound: A Multimodal Generalist Foundation Model for Ophthalmic Imaging	May 18, 2024	Question AnsweringVisual Question Answering	—Unverified
StackOverflowVQA: Stack Overflow Visual Question Answering Dataset	May 17, 2024	Question AnsweringSentence	—Unverified
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering	May 13, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	—Unverified
Realizing Visual Question Answering for Education: GPT-4V as a Multimodal AI	May 12, 2024	Question AnsweringVisual Question Answering	—Unverified
Federated Document Visual Question Answering: A Pilot Study	May 10, 2024	Federated LearningQuestion Answering	CodeCode Available
Is the House Ready For Sleeptime? Generating and Evaluating Situational Queries for Embodied Question Answering	May 8, 2024	2kEmbodied Question Answering	—Unverified
Language-Image Models with 3D Understanding	May 6, 2024	Question AnsweringVisual Question Answering	—Unverified
VSA4VQA: Scaling a Vector Symbolic Architecture to Visual Question Answering on Natural Images	May 6, 2024	AttributeLanguage Modeling	—Unverified
Advancing Multimodal Medical Capabilities of Gemini	May 6, 2024	Computed Tomography (CT)image-classification	—Unverified
Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach	May 1, 2024	Computational EfficiencyQuestion Answering	—Unverified

Show:10 25 50

← PrevPage 46 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified