Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1176–1200 of 2177 papers

Title	Date	Tasks	Status	Hype
MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and Texts	May 18, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Visual Question Answering: A Survey on Techniques and Common Trends in Recent Literature	May 18, 2023	Question AnsweringVisual Question Answering	—Unverified	0
What You See is What You Read? Improving Text-Image Alignment Evaluation	May 17, 2023	Image GenerationImage to text	CodeCode Available	1
IMAD: IMage-Augmented multi-modal Dialogue	May 17, 2023	Dialogue GenerationQuestion Answering	CodeCode Available	0
An Empirical Study on the Language Modal in Visual Question Answering	May 17, 2023	Question AnsweringVisual Question Answering	—Unverified	0
Probing the Role of Positional Information in Vision-Language Models	May 17, 2023	Contrastive LearningImage-text matching	—Unverified	0
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering	May 17, 2023	BenchmarkingDiagnostic	CodeCode Available	1
Semantic Composition in Visually Grounded Language Models	May 15, 2023	Image CaptioningInductive Bias	—Unverified	0
OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models	May 13, 2023	Key Information ExtractionNutrition	CodeCode Available	2
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning	May 11, 2023	1 Image, 2*2 StitchingDiversity	CodeCode Available	2
Combo of Thinking and Observing for Outside-Knowledge VQA	May 10, 2023	DecoderQuestion Answering	CodeCode Available	1
Vision-Language Models in Remote Sensing: Current Progress and Future Trends	May 9, 2023	Image CaptioningImage Generation	CodeCode Available	1
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese	May 7, 2023	Information RetrievalQuestion Answering	CodeCode Available	0
Adaptive loose optimization for robust question answering	May 6, 2023	Extractive Question-AnsweringMachine Reading Comprehension	CodeCode Available	0
Otter: A Multi-Modal Model with In-Context Instruction Tuning	May 5, 2023	GPUIn-Context Learning	CodeCode Available	4
Analysis of Visual Question Answering Algorithms with attention model	May 4, 2023	Question AnsweringVisual Question Answering	—Unverified	0
Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime	May 3, 2023	Image CaptioningQuestion Answering	—Unverified	0
CHIC: Corporate Document for Visual question Answering	May 1, 2023	Information RetrievalQuestion Answering	—Unverified	0
LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model	Apr 28, 2023	Instruction Followingmodel	CodeCode Available	5
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining	Apr 26, 2023	cross-modal alignmentMedical Visual Question Answering	CodeCode Available	1
A Symmetric Dual Encoding Dense Retrieval Framework for Knowledge-Intensive Visual Question Answering	Apr 26, 2023	DecoderKnowledge Distillation	CodeCode Available	1
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models	Apr 20, 2023	Image DescriptionLanguage Modelling	CodeCode Available	7
SurgicalGPT: End-to-End Language-Vision GPT for Visual Question Answering in Surgery	Apr 19, 2023	Question AnsweringScene Segmentation	CodeCode Available	1
Learning Situation Hyper-Graphs for Video Question Answering	Apr 18, 2023	DecoderQuestion Answering	CodeCode Available	1
Visual Instruction Tuning	Apr 17, 2023	1 Image, 2*2 Stitching3D Question Answering (3D-QA)	CodeCode Available	6

Show:10 25 50

← PrevPage 48 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified