Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1701–1750 of 2177 papers

Title	Date	Tasks	Status	Hype
Multimodal Graph Networks for Compositional Generalization in Visual Question Answering	Dec 1, 2020	Graph Neural NetworkQuestion Answering	—Unverified	0
Point and Ask: Incorporating Pointing into Visual Question Answering	Nov 27, 2020	Question AnsweringVisual Question Answering	CodeCode Available	1
Learning from Lexical Perturbations for Consistent Visual Question Answering	Nov 26, 2020	Question AnsweringVisual Question Answering	CodeCode Available	0
Siamese Tracking with Lingual Object Constraints	Nov 23, 2020	ObjectObject Tracking	CodeCode Available	0
Large Scale Multimodal Classification Using an Ensemble of Transformer Models and Co-Attention	Nov 23, 2020	ClassificationGeneral Classification	CodeCode Available	1
Modular Graph Attention Network for Complex Visual Relational Reasoning	Nov 22, 2020	Graph AttentionQuestion Answering	—Unverified	0
LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering	Nov 21, 2020	Answer GenerationQuestion Answering	CodeCode Available	1
Logically Consistent Loss for Visual Question Answering	Nov 19, 2020	Multi-Task LearningQuestion Answering	—Unverified	0
Generating Natural Questions from Images for Multimodal Assistants	Nov 17, 2020	Common Sense ReasoningNatural Questions	—Unverified	0
CapWAP: Captioning with a Purpose	Nov 9, 2020	Image CaptioningQuestion Answering	—Unverified	0
Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles	Nov 7, 2020	Natural Language InferenceQuestion Answering	CodeCode Available	0
Disentangling 3D Prototypical Networks For Few-Shot Concept Learning	Nov 6, 2020	3D geometry3D Object Detection	CodeCode Available	1
An Improved Attention for Visual Question Answering	Nov 4, 2020	DecoderQuestion Answering	CodeCode Available	0
Reasoning Over History: Context Aware Visual Dialog	Nov 2, 2020	coreference-resolutionCoreference Resolution	—Unverified	0
Representation, Learning and Reasoning on Spatial Language for Downstream NLP Tasks	Nov 1, 2020	Common Sense ReasoningQuestion Answering	—Unverified	0
Can Pre-training help VQA with Lexical Variations?	Nov 1, 2020	Question AnsweringVisual Question Answering	—Unverified	0
ConceptBert: Concept-Aware Representation for Visual Question Answering	Nov 1, 2020	Common Sense ReasoningQuestion Answering	CodeCode Available	1
CapWAP: Image Captioning with a Purpose	Nov 1, 2020	Image CaptioningQuestion Answering	—Unverified	0
ISAAQ - Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention	Nov 1, 2020	Multiple-choiceQuestion Answering	—Unverified	0
Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering	Nov 1, 2020	Contrastive Learningcounterfactual	CodeCode Available	1
Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a Class-imbalance View	Oct 30, 2020	Face Recognitionimage-classification	CodeCode Available	0
Leveraging Visual Question Answering to Improve Text-to-Image Synthesis	Oct 28, 2020	Auxiliary LearningImage Generation	—Unverified	0
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering	Oct 27, 2020	DiagnosticQuestion Answering	CodeCode Available	1
RUArt: A Novel Text-Centered Solution for Text-Based Visual Question Answering	Oct 24, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	CodeCode Available	1
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions	Oct 24, 2020	General ClassificationMultiple-choice	—Unverified	0
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies	Oct 21, 2020	Question AnsweringVisual Question Answering	CodeCode Available	1
Bayesian Attention Modules	Oct 20, 2020	Image CaptioningMachine Translation	CodeCode Available	1
SOrT-ing VQA Models : Contrastive Gradient Learning for Improved Consistency	Oct 20, 2020	Question AnsweringVisual Grounding	CodeCode Available	0
Answer-checking in Context: A Multi-modal FullyAttention Network for Visual Question Answering	Oct 17, 2020	Question AnsweringVisual Question Answering	—Unverified	0
New Ideas and Trends in Deep Multimodal Content Understanding: A Review	Oct 16, 2020	Cross-Modal RetrievalDeep Learning	—Unverified	0
Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs	Oct 15, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think!	Oct 13, 2020	DiagnosticImage-text Classification	—Unverified	0
Contrast and Classify: Training Robust VQA Models	Oct 13, 2020	Contrastive LearningData Augmentation	CodeCode Available	1
Interpretable Neural Computation for Real-World Compositional Visual Question Answering	Oct 10, 2020	Question AnsweringVisual Question Answering	—Unverified	0
Characterizing Datasets for Social Visual Question Answering, and the New TinySocial Dataset	Oct 8, 2020	Question AnsweringVisual Question Answering	—Unverified	0
Pathological Visual Question Answering	Oct 6, 2020	AI AgentQuestion Answering	—Unverified	0
Finding the Evidence: Localization-aware Answer Prediction for Text Visual Question Answering	Oct 6, 2020	Optical Character RecognitionOptical Character Recognition (OCR)	—Unverified	0
Attention Guided Semantic Relationship Parsing for Visual Question Answering	Oct 5, 2020	ObjectQuestion Answering	—Unverified	0
CAPTION: Correction by Analyses, POS-Tagging and Interpretation of Objects using only Nouns	Oct 2, 2020	Image Captioningobject-detection	—Unverified	0
ISAAQ -- Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention	Oct 1, 2020	Multiple-choiceQuestion Answering	—Unverified	0
Graph-based Heuristic Search for Module Selection Procedure in Neural Module Network	Sep 30, 2020	Heuristic SearchQuestion Answering	—Unverified	0
Spatial Attention as an Interface for Image Captioning Models	Sep 29, 2020	Image CaptioningQuestion Answering	—Unverified	0
Hierarchical Deep Multi-modal Network for Medical Visual Question Answering	Sep 27, 2020	DescriptiveMedical Visual Question Answering	CodeCode Available	0
Multiple interaction learning with question-type prior knowledge for constraining answer search space in visual question answering	Sep 23, 2020	Question AnsweringVisual Question Answering	CodeCode Available	0
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers	Sep 23, 2020	Image CaptioningImage Generation	CodeCode Available	1
Regularizing Attention Networks for Anomaly Detection in Visual Question Answering	Sep 21, 2020	Anomaly DetectionQuestion Answering	—Unverified	0
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering	Sep 18, 2020	Out-of-Distribution GeneralizationQuestion Answering	CodeCode Available	1
A Multimodal Memes Classification: A Survey and Open Research Issues	Sep 17, 2020	ClassificationGeneral Classification	—Unverified	0
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports	Sep 3, 2020	Image-text RetrievalMedical Visual Question Answering	CodeCode Available	1
Cross-modal Knowledge Reasoning for Knowledge-based Visual Question Answering	Aug 31, 2020	Knowledge GraphsQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 35 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified