Visual Question Answering

MLLM Leaderboard

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 901–950 of 2177 papers

Title	Date	Tasks	Status	Hype
Generalizing Visual Question Answering from Synthetic to Human-Written Questions via a Chain of QA with a Large Language Model	Jan 12, 2024	Language ModelingLanguage Modelling	CodeCode Available	0
Cross-modal Retrieval for Knowledge-based Visual Question Answering	Jan 11, 2024	Cross-Modal RetrievalQuestion Answering	CodeCode Available	1
Hallucination Benchmark in Medical Visual Question Answering	Jan 11, 2024	HallucinationMedical Visual Question Answering	CodeCode Available	0
MISS: A Generative Pretraining and Finetuning Approach for Med-VQA	Jan 10, 2024	Medical Visual Question AnsweringMulti-Task Learning	CodeCode Available	1
GRAM: Global Reasoning for Multi-Page VQA	Jan 7, 2024	Question AnsweringVisual Question Answering	—Unverified	0
CaMML: Context-Aware Multimodal Learner for Large Models	Jan 6, 2024	Visual Question Answering	CodeCode Available	1
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging	Jan 5, 2024	Medical Report GenerationMedical Visual Question Answering	CodeCode Available	2
ArtQuest: Countering Hidden Language Biases in ArtVQA	Jan 4, 2024	Question AnsweringVisual Question Answering	CodeCode Available	0
SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for Multimodal Alignment	Jan 4, 2024	Image Captioningimage-classification	—Unverified	0
LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model	Jan 4, 2024	Language ModelingLanguage Modelling	CodeCode Available	3
GPT-4V(ision) is a Generalist Web Agent, if Grounded	Jan 3, 2024	Image CaptioningQuestion Answering	CodeCode Available	4
Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers	Jan 3, 2024	Question AnsweringVisual Grounding	—Unverified	0
Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles	Jan 1, 2024	Question AnsweringVisual Question Answering	—Unverified	0
Synthesize Step-by-Step: Tools Templates and LLMs as Data Generators for Reasoning-Based Chart VQA	Jan 1, 2024	Chart Question AnsweringData Augmentation	—Unverified	0
Mask4Align: Aligned Entity Prompting with Color Masks for Multi-Entity Localization Problems	Jan 1, 2024	Question AnsweringVisual Question Answering	—Unverified	0
CoG-DQA: Chain-of-Guiding Learning with Large Language Models for Diagram Question Answering	Jan 1, 2024	Question AnsweringVisual Question Answering	—Unverified	0
MIVC: Multiple Instance Visual Component for Visual-Language Models	Dec 28, 2023	Question AnsweringVisual Question Answering	—Unverified	0
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones	Dec 28, 2023	Computational EfficiencyImage Captioning	CodeCode Available	3
Gemini Pro Defeated by GPT-4V: Evidence from Education	Dec 27, 2023	image-classificationImage Classification	—Unverified	0
Detection-based Intermediate Supervision for Visual Question Answering	Dec 26, 2023	cross-modal alignmentLogical Reasoning	—Unverified	0
On the Promises and Challenges of Multimodal Foundation Models for Geographical, Environmental, Agricultural, and Urban Planning Applications	Dec 23, 2023	geo-localizationimage-classification	—Unverified	0
Towards a Unified Multimodal Reasoning Framework	Dec 22, 2023	Multimodal ReasoningMultiple-choice	CodeCode Available	0
DriveLM: Driving with Graph Visual Question Answering	Dec 21, 2023	Autonomous DrivingQuestion Answering	CodeCode Available	3
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks	Dec 21, 2023	Image RetrievalImage-to-Text Retrieval	CodeCode Available	1
Reducing Hallucinations: Enhancing VQA for Flood Disaster Damage Assessment with Visual Contexts	Dec 21, 2023	HallucinationQuestion Answering	—Unverified	0
VCoder: Versatile Vision Encoders for Multimodal Large Language Models	Dec 21, 2023	Image CaptioningImage Generation	CodeCode Available	2
LingoQA: Visual Question Answering for Autonomous Driving	Dec 21, 2023	Autonomous DrivingDecision Making	CodeCode Available	2
V*: Guided Visual Search as a Core Mechanism in Multimodal LLMs	Dec 21, 2023	Visual Question AnsweringWorld Knowledge	CodeCode Available	2
Object Attribute Matters in Visual Question Answering	Dec 20, 2023	AttributeGraph Neural Network	CodeCode Available	0
Object-aware Adaptive-Positivity Learning for Audio-Visual Question Answering	Dec 20, 2023	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	0
Interactive Visual Task Learning for Robots	Dec 20, 2023	Continual LearningNovel Concepts	—Unverified	0
Generative Multimodal Models are In-Context Learners	Dec 20, 2023	In-Context LearningPersonalized Image Generation	CodeCode Available	3
Multi-Clue Reasoning with Memory Augmentation for Knowledge-based Visual Question Answering	Dec 20, 2023	Question AnsweringVisual Question Answering	—Unverified	0
VQA4CIR: Boosting Composed Image Retrieval with Visual Question Answering	Dec 19, 2023	Image RetrievalQuestion Answering	CodeCode Available	0
Gemini: A Family of Highly Capable Multimodal Models	Dec 19, 2023	1 Image, 2*2 StitchingArithmetic Reasoning	CodeCode Available	1
EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering	Dec 19, 2023	ObjectObject Counting	CodeCode Available	1
HAAR: Text-Conditioned Generative Model of 3D Strand-based Human Hairstyles	Dec 18, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
OsmLocator: locating overlapping scatter marks with a non-training generative perspective	Dec 18, 2023	ClusteringCombinatorial Optimization	CodeCode Available	0
CLOVA: A Closed-Loop Visual Assistant with Tool Usage and Update	Dec 18, 2023	Continual LearningQuestion Answering	—Unverified	0
An Evaluation of GPT-4V and Gemini in Online VQA	Dec 17, 2023	Question AnsweringVisual Question Answering	—Unverified	0
Silkie: Preference Distillation for Large Visual Language Models	Dec 17, 2023	HallucinationMME	—Unverified	0
p-Laplacian Adaptation for Generative Pre-trained Vision-Language Models	Dec 17, 2023	Image CaptioningQuestion Answering	CodeCode Available	0
Advancing Surgical VQA with Scene Graph Knowledge	Dec 15, 2023	Question AnsweringVisual Question Answering	—Unverified	0
SkySense: A Multi-Modal Remote Sensing Foundation Model Towards Universal Interpretation for Earth Observation Imagery	Dec 15, 2023	Contrastive LearningEarth Observation	CodeCode Available	3
Lever LM: Configuring In-Context Sequence to Lever Large Vision Language Models	Dec 15, 2023	Image CaptioningIn-Context Learning	CodeCode Available	1
WordScape: a Pipeline to extract multilingual, visually rich Documents with Layout Annotations from Web Crawl Data	Dec 15, 2023	document understandingQuestion Answering	CodeCode Available	1
Privacy-Aware Document Visual Question Answering	Dec 15, 2023	document understandingFederated Learning	CodeCode Available	1
VL-GPT: A Generative Pre-trained Transformer for Vision and Language Understanding and Generation	Dec 14, 2023	Image CaptioningImage Generation	CodeCode Available	1
CogAgent: A Visual Language Model for GUI Agents	Dec 14, 2023	Language Modeling	CodeCode Available	5
BESTMVQA: A Benchmark Evaluation System for Medical Visual Question Answering	Dec 13, 2023	Medical Visual Question AnsweringQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 19 of 44Next →

All datasets MM-Vet ViP-Bench VQA v2 test-dev BenchLMM MMBench V*bench VQA v2 val MSRVTT-QA VQA v2 test-std MMHal-Bench MSVD-QA PlotQA-D1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MMCTAgent (GPT-4 + GPT-4V)	GPT-4 score	74.24	—	Unverified
2	Qwen2-VL-72B	GPT-4 score	74	—	Unverified
3	InternVL2.5-78B	GPT-4 score	72.3	—	Unverified
4	GPT-4o +text rationale +IoT	GPT-4 score	72.2	—	Unverified
5	Lyra-Pro	GPT-4 score	71.4	—	Unverified
6	GLM-4V-Plus	GPT-4 score	71.1	—	Unverified
7	Phantom-7B	GPT-4 score	70.8	—	Unverified
8	InternVL2.5-38B	GPT-4 score	68.8	—	Unverified
9	InternVL2-26B (SGP, token ratio 64%)	GPT-4 score	65.6	—	Unverified
10	Baichuan-Omni (7B)	GPT-4 score	65.4	—	Unverified