Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1475 of 2177 papers

Title	Date	Tasks	Status
Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis	Feb 11, 2023	Image-text RetrievalKnowledge Graphs	CodeCode Available
Is Multimodal Vision Supervision Beneficial to Language?	Feb 10, 2023	Image RetrievalNatural Language Understanding	CodeCode Available
BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution Generalization of VQA Models	Jan 28, 2023	Out-of-Distribution GeneralizationQuestion Answering	CodeCode Available
Towards a Unified Model for Generating Answers and Explanations in Visual Question Answering	Jan 25, 2023	DecoderExplanation Generation	—Unverified
HRVQA: A Visual Question Answering Benchmark for High-Resolution Aerial Images	Jan 23, 2023	AttributeQuestion Answering	—Unverified
Towards Models that Can See and Read	Jan 18, 2023	DecoderImage Captioning	—Unverified
Curriculum Script Distillation for Multilingual Visual Question Answering	Jan 17, 2023	Question AnsweringVisual Question Answering	—Unverified
Adaptively Clustering Neighbor Elements for Image-Text Generation	Jan 5, 2023	ClusteringDecoder	CodeCode Available
From Images to Textual Prompts: Zero-Shot Visual Question Answering With Frozen Large Language Models	Jan 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Exploring the Effect of Primitives for Compositional Generalization in Vision-and-Language	Jan 1, 2023	Question AnsweringSelf-Supervised Learning	CodeCode Available
Decouple Before Interact: Multi-Modal Prompt Learning for Continual Visual Question Answering	Jan 1, 2023	Continual LearningLanguage Modelling	—Unverified
Image as a Foreign Language: BEiT Pretraining for Vision and Vision-Language Tasks	Jan 1, 2023	Cross-Modal RetrievalImage Captioning	—Unverified
RMLVQA: A Margin Loss Approach for Visual Question Answering With Language Biases	Jan 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge	Jan 1, 2023	Decision MakingQuestion Answering	CodeCode Available
PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3	Jan 1, 2023	Image CaptioningQuestion Answering	—Unverified
When are Lemons Purple? The Concept Association Bias of Vision-Language Models	Dec 22, 2022	Attributeimage-classification	—Unverified
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering	Dec 21, 2022	Data AugmentationDecision Making	—Unverified
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models	Dec 21, 2022	Question AnsweringVisual Question Answering	CodeCode Available
Towards Unsupervised Visual Reasoning: Do Off-The-Shelf Features Know How to Reason?	Dec 20, 2022	Question AnsweringRepresentation Learning	—Unverified
MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering	Dec 19, 2022	Chart Question AnsweringData Summarization	—Unverified
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering	Dec 16, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
CLIPPO: Image-and-Language Understanding from Pixels Only	Dec 15, 2022	Contrastive Learningimage-classification	—Unverified
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory	Dec 10, 2022	Image CaptioningLanguage Modeling	CodeCode Available
ParsVQA-Caps: A Benchmark for Visual Question Answering and Image Captioning in Persian	Dec 7, 2022	Image CaptioningQuestion Answering	—Unverified
Visual Question Answering From Another Perspective: CLEVR Mental Rotation Tests	Dec 3, 2022	Question AnsweringVisual Question Answering	CodeCode Available

Show:10 25 50

← PrevPage 59 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified