Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–575 of 2177 papers

Title	Date	Tasks	Status	Hype
SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering	Feb 18, 2021	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts	Feb 17, 2021	Caption GenerationDiversity	CodeCode Available	1
Unifying Vision-and-Language Tasks via Text Generation	Feb 4, 2021	Conditional Text GenerationDecoder	CodeCode Available	1
VisualMRC: Machine Reading Comprehension on Document Images	Jan 27, 2021	Machine Reading ComprehensionNatural Language Understanding	CodeCode Available	1
TRAR: Routing the Attention Spans in Transformer for Visual Question Answering	Jan 1, 2021	Question AnsweringReferring Expression	CodeCode Available	1
Multimodal Co-Attention Transformer for Survival Prediction in Gigapixel Whole Slide Images	Jan 1, 2021	AttributeMultiple Instance Learning	CodeCode Available	1
Pano-AVQA: Grounded Audio-Visual Question Answering on 360deg Videos	Jan 1, 2021	Audio-visual Question AnsweringQuestion Answering	CodeCode Available	1
Detecting Hate Speech in Multi-modal Memes	Dec 29, 2020	Binary ClassificationHate Speech Detection	CodeCode Available	1
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering	Dec 17, 2020	Question AnsweringSelf-Supervised Learning	CodeCode Available	1
Knowledge-Routed Visual Question Reasoning: Challenges for Deep Representation Embedding	Dec 14, 2020	Question AnsweringVisual Question Answering	CodeCode Available	1
FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding	Dec 5, 2020	image-classificationImage Classification	CodeCode Available	1
Just Ask: Learning to Answer Questions from Millions of Narrated Videos	Dec 1, 2020	Question AnsweringQuestion Generation	CodeCode Available	1
Point and Ask: Incorporating Pointing into Visual Question Answering	Nov 27, 2020	Question AnsweringVisual Question Answering	CodeCode Available	1
Large Scale Multimodal Classification Using an Ensemble of Transformer Models and Co-Attention	Nov 23, 2020	ClassificationGeneral Classification	CodeCode Available	1
LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering	Nov 21, 2020	Answer GenerationQuestion Answering	CodeCode Available	1
Disentangling 3D Prototypical Networks For Few-Shot Concept Learning	Nov 6, 2020	3D geometry3D Object Detection	CodeCode Available	1
Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering	Nov 1, 2020	Contrastive Learningcounterfactual	CodeCode Available	1
ConceptBert: Concept-Aware Representation for Visual Question Answering	Nov 1, 2020	Common Sense ReasoningQuestion Answering	CodeCode Available	1
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering	Oct 27, 2020	DiagnosticQuestion Answering	CodeCode Available	1
RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering	Oct 24, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies	Oct 21, 2020	Question AnsweringVisual Question Answering	CodeCode Available	1
Bayesian Attention Modules	Oct 20, 2020	Image CaptioningMachine Translation	CodeCode Available	1
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs	Oct 15, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Contrast and Classify: Training Robust VQA Models	Oct 13, 2020	Contrastive LearningData Augmentation	CodeCode Available	1
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers	Sep 23, 2020	Image CaptioningImage Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 23 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified