Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 826–850 of 2177 papers

Title	Date	Tasks	Status	Hype
CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios	Mar 7, 2024	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	2
Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning	Mar 6, 2024	Multimodal ReasoningQuestion Answering	CodeCode Available	2
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use	Mar 5, 2024	image-classificationImage Classification	—Unverified	0
CLEVR-POC: Reasoning-Intensive Visual Question Answering in Partially Observable Environments	Mar 5, 2024	Language ModellingLarge Language Model	—Unverified	0
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models	Mar 5, 2024	TextVQAVisual Question Answering	CodeCode Available	3
MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting	Mar 5, 2024	In-Context LearningObject Rearrangement	—Unverified	0
Enhancing Generalization in Medical Visual Question Answering Tasks via Gradient-Guided Model Perturbation	Mar 5, 2024	Data AugmentationMedical Visual Question Answering	—Unverified	0
Vision-Language Models for Medical Report Generation and Visual Question Answering: A Review	Mar 4, 2024	Medical Report GenerationQuestion Answering	CodeCode Available	3
InfiMM-HD: A Leap Forward in High-Resolution Multimodal Understanding	Mar 3, 2024	Visual Question Answering	—Unverified	0
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World	Feb 29, 2024	AllHallucination	CodeCode Available	4
A Cognitive Evaluation Benchmark of Image Reasoning and Description for Large Vision-Language Models	Feb 28, 2024	Image DescriptionQuestion Answering	—Unverified	0
ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks	Feb 27, 2024	Domain GeneralizationImage Captioning	—Unverified	0
VCD: Knowledge Base Guided Visual Commonsense Discovery in Images	Feb 27, 2024	Decision MakingLanguage Modelling	—Unverified	0
Read and Think: An Efficient Step-wise Multimodal Language Model for Document Understanding and Reasoning	Feb 26, 2024	Data Augmentationdocument understanding	—Unverified	0
LLM-Assisted Multi-Teacher Continual Learning for Visual Question Answering in Robotic Surgery	Feb 26, 2024	Continual LearningExemplar-Free	CodeCode Available	0
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis	Feb 25, 2024	Code GenerationMultimodal Reasoning	—Unverified	0
Bridging the Gap between 2D and 3D Visual Question Answering: A Fusion Approach for 3D VQA	Feb 24, 2024	3D Question Answering (3D-QA)Question Answering	CodeCode Available	1
VISREAS: Complex Visual Reasoning with Unanswerable Questions	Feb 23, 2024	Question AnsweringVisual Question Answering	—Unverified	0
Multimodal Transformer With a Low-Computational-Cost Guarantee	Feb 23, 2024	Action RecognitionQuestion Answering	—Unverified	0
CommVQA: Situating Visual Question Answering in Communicative Contexts	Feb 22, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0
Uncertainty-Aware Evaluation for Vision-Language Models	Feb 22, 2024	Conformal PredictionLanguage Modeling	CodeCode Available	1
Visual Hallucinations of Multi-modal Large Language Models	Feb 22, 2024	DiversityHallucination	CodeCode Available	1
TinyLLaVA: A Framework of Small-scale Large Multimodal Models	Feb 22, 2024	Visual Question Answering	CodeCode Available	4
Cognitive Visual-Language Mapper: Advancing Multimodal Comprehension with Enhanced Visual Knowledge Alignment	Feb 21, 2024	Language ModellingQuestion Answering	CodeCode Available	1
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions	Feb 20, 2024	Image CaptioningQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 34 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified