Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1376–1400 of 2177 papers

Title	Date	Tasks	Status
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input	Jun 25, 2023	DiversityImage-text Retrieval	—Unverified
Visual Question Answering in Remote Sensing with Cross-Attention and Multimodal Information Bottleneck	Jun 25, 2023	object-detectionObject Detection	—Unverified
TaCA: Upgrading Your Visual Foundation Model with Task-agnostic Compatible Adapter	Jun 22, 2023	Question AnsweringRetrieval	CodeCode Available
Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories	Jun 15, 2023	Question AnsweringRetrieval	—Unverified
AVIS: Autonomous Visual Information Seeking with Large Language Model Agent	Jun 13, 2023	Decision MakingLanguage Modeling	—Unverified
Safeguarding Data in Multimodal AI: A Differentially Private Approach to CLIP Training	Jun 13, 2023	image-classificationImage Classification	CodeCode Available
Visual Question Answering (VQA) on Images with Superimposed Text	Jun 13, 2023	Question AnsweringVisual Question Answering	—Unverified
A Survey of Vision-Language Pre-training from the Lens of Multimodal Machine Translation	Jun 12, 2023	Image CaptioningMachine Translation	—Unverified
Knowledge Detection by Relevant Question and Image Attributes in Visual Question Answering	Jun 8, 2023	Question AnsweringRetrieval	—Unverified
Diversifying Joint Vision-Language Tokenization Learning	Jun 6, 2023	Question AnsweringRepresentation Learning	—Unverified
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes	Jun 4, 2023	Common Sense ReasoningQuestion Answering	—Unverified
LiT-4-RSVQA: Lightweight Transformer-based Visual Question Answering in Remote Sensing	Jun 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data	Jun 1, 2023	Anomaly DetectionImage Generation	—Unverified
Overcoming Language Bias in Remote Sensing Visual Question Answering via Adversarial Training	Jun 1, 2023	Question AnsweringVisual Question Answering	—Unverified
Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA	May 31, 2023	counterfactualCounterfactual Inference	—Unverified
Using Visual Cropping to Enhance Fine-Detail Question Answering of BLIP-Family Models	May 31, 2023	Question AnsweringVisual Question Answering	—Unverified
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge	May 30, 2023	Answer SelectionQuestion Answering	—Unverified
HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language	May 28, 2023	Machine TranslationMultimodal Machine Translation	CodeCode Available
Modularized Zero-shot VQA with Pre-trained Models	May 27, 2023	object-detectionObject Detection	CodeCode Available
Zero-shot Visual Question Answering with Language Model Feedback	May 26, 2023	Language ModelingLanguage Modelling	CodeCode Available
Mindstorms in Natural Language-Based Societies of Mind	May 26, 2023	3D GenerationImage Captioning	—Unverified
GRILL: Grounded Vision-language Pre-training via Aligning Text and Image Regions	May 24, 2023	ObjectQuestion Answering	—Unverified
Measuring Faithful and Plausible Visual Grounding in VQA	May 24, 2023	Question AnsweringVisual Grounding	CodeCode Available
EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought	May 24, 2023	Image CaptioningLanguage Modelling	—Unverified
Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering	May 24, 2023	Question AnsweringVisual Question Answering	—Unverified

Show:10 25 50

← PrevPage 56 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified