Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1476–1500 of 2177 papers

Title	Date	Tasks	Status
Compound Tokens: Channel Fusion for Vision-Language Representation Learning	Dec 2, 2022	DecoderLanguage Modeling	—Unverified
Optimizing Explanations by Network Canonization and Hyperparameter Search	Nov 30, 2022	Explainable Artificial Intelligence (XAI)image-classification	—Unverified
PiggyBack: Pretrained Visual Question Answering Environment for Backing up Non-deep Learning Professionals	Nov 29, 2022	Deep LearningQuestion Answering	—Unverified
Neuro-Symbolic Spatio-Temporal Reasoning	Nov 28, 2022	AI AgentImage Segmentation	—Unverified
Look, Read and Ask: Learning to Ask Questions by Reading Text in Images	Nov 23, 2022	Optical Character Recognition (OCR)Question Answering	—Unverified
Cross-Modal Contrastive Learning for Robust Reasoning in VQA	Nov 21, 2022	Contrastive LearningQuestion Answering	CodeCode Available
CL-CrossVQA: A Continual Learning Benchmark for Cross-Domain Visual Question Answering	Nov 19, 2022	Continual LearningQuestion Answering	—Unverified
Text-Aware Dual Routing Network for Visual Question Answering	Nov 17, 2022	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified
AlignVE: Visual Entailment Recognition Based on Alignment Relations	Nov 16, 2022	Question AnsweringRelation	—Unverified
Visually Grounded VQA by Lattice-based Retrieval	Nov 15, 2022	Information RetrievalQuestion Answering	CodeCode Available
MF2-MVQA: A Multi-stage Feature Fusion method for Medical Visual Question Answering	Nov 11, 2022	Medical Visual Question AnsweringQuestion Answering	—Unverified
Towards Reasoning-Aware Explainable VQA	Nov 9, 2022	DecoderExplanation Generation	—Unverified
ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation	Nov 9, 2022	Contrastive LearningDecoder	—Unverified
Generalization Differences between End-to-End and Neuro-Symbolic Vision-Language Reasoning Systems	Oct 26, 2022	Question AnsweringVisual Question Answering	—Unverified
Compressing And Debiasing Vision-Language Pre-Trained Models for Visual Question Answering	Oct 26, 2022	Question AnsweringVisual Question Answering	CodeCode Available
What's Different between Visual Question Answering for Machine "Understanding" Versus for Accessibility?	Oct 26, 2022	BenchmarkingQuestion Answering	CodeCode Available
Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision	Oct 24, 2022	cross-modal alignmentCross-Modal Retrieval	—Unverified
RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data	Oct 23, 2022	Image CaptioningImage-text Retrieval	—Unverified
Image Semantic Relation Generation	Oct 19, 2022	Image RetrievalImage Segmentation	—Unverified
CPL: Counterfactual Prompt Learning for Vision and Language Models	Oct 19, 2022	counterfactualimage-classification	—Unverified
Aligning MAGMA by Few-Shot Learning and Finetuning	Oct 18, 2022	Few-Shot LearningImage Captioning	—Unverified
Entity-Focused Dense Passage Retrieval for Outside-Knowledge Visual Question Answering	Oct 18, 2022	Passage RetrievalQuestion Answering	—Unverified
Plug-and-Play VQA: Zero-shot VQA by Conjoining Large Pretrained Models with Zero Training	Oct 17, 2022	Image CaptioningNetwork Interpretation	CodeCode Available
Multi-Modal Fusion Transformer for Visual Question Answering in Remote Sensing	Oct 10, 2022	Question AnsweringRepresentation Learning	—Unverified
MAMO: Masked Multimodal Modeling for Fine-Grained Vision-Language Representation Learning	Oct 9, 2022	Image-text Retrievalmultimodal interaction	—Unverified

Show:10 25 50

← PrevPage 60 of 88Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified