Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1326–1350 of 2177 papers

Title	Date	Tasks	Status	Hype
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified	0
Language Prior Is Not the Only Shortcut: A Benchmark for Shortcut Learning in VQA	Oct 10, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning	Oct 10, 2022	Contrastive LearningQuestion Answering	CodeCode Available	1
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified	0
Retrieval Augmented Visual Question Answering with Outside Knowledge	Oct 7, 2022	Answer GenerationDiagnostic	CodeCode Available	2
On the Effects of Video Grounding on Language Models	Oct 1, 2022	Image CaptioningQuestion Answering	—Unverified	0
Dual Capsule Attention Mask Network with Mutual Learning for Visual Question Answering	Oct 1, 2022	Question AnsweringVisual Question Answering	—Unverified	0
A Dual-Attention Learning Network with Word and Sentence Embedding for Medical Visual Question Answering	Oct 1, 2022	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	0
Task Formulation Matters When Learning Continually: A Case Study in Visual Question Answering	Sep 30, 2022	Continual LearningQuestion Answering	CodeCode Available	0
Linearly Mapping from Image to Text Space	Sep 30, 2022	Image CaptioningImage to text	CodeCode Available	1
TVLT: Textless Vision-Language Transformer	Sep 28, 2022	Automatic Speech Recognition (ASR)Image Retrieval	CodeCode Available	1
RepsNet: Combining Vision with Language for Automated Medical Reports	Sep 27, 2022	Contrastive LearningDecoder	—Unverified	0
Towards Explainable 3D Grounded Visual Question Answering: A New Benchmark and Strong Baseline	Sep 24, 2022	Question AnsweringVisual Question Answering	CodeCode Available	1
Exploring Modulated Detection Transformer as a Tool for Action Recognition in Videos	Sep 21, 2022	Action DetectionAction Recognition	CodeCode Available	0
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering	Sep 21, 2022	Image CaptioningOptical Character Recognition (OCR)	—Unverified	0
Continual VQA for Disaster Response Systems	Sep 21, 2022	Disaster ResponseManagement	CodeCode Available	0
Overcoming Language Priors in Visual Question Answering via Distinguishing Superficially Similar Instances	Sep 18, 2022	AttributeQuestion Answering	CodeCode Available	0
LAVIS: A Library for Language-Vision Intelligence	Sep 15, 2022	BenchmarkingImage Captioning	—Unverified	0
Correlation Information Bottleneck: Towards Adapting Pretrained Multimodal Models for Robust Visual Question Answering	Sep 14, 2022	Adversarial RobustnessQuestion Answering	—Unverified	0
MUST-VQA: MUltilingual Scene-text VQA	Sep 14, 2022	Question AnsweringVisual Question Answering	—Unverified	0
PaLI: A Jointly-Scaled Multilingual Language-Image Model	Sep 14, 2022	DecoderFew-Shot Image Classification	—Unverified	0
PreSTU: Pre-Training for Scene-Text Understanding	Sep 12, 2022	DecoderImage Captioning	—Unverified	0
MaXM: Towards Multilingual Visual Question Answering	Sep 12, 2022	Question AnsweringTranslation	CodeCode Available	1
Pre-training image-language transformers for open-vocabulary tasks	Sep 9, 2022	Question AnsweringVisual Entailment	—Unverified	0
Improving the Cross-Lingual Generalisation in Visual Question Answering	Sep 7, 2022	Cross-Lingual TransferQuestion Answering	CodeCode Available	0

Show:10 25 50

← PrevPage 54 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified