Medical Visual Question Answering

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 97 papers

Title	Date	Tasks	Status	Hype
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM	Feb 14, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	4
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models	Jan 30, 2023	Generative Visual Question AnsweringImage Captioning	CodeCode Available	4
Flamingo: a Visual Language Model for Few-Shot Learning	Apr 29, 2022	Few-Shot LearningGenerative Visual Question Answering	CodeCode Available	4
MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine	Aug 6, 2024	Medical Visual Question AnsweringOrgan Detection	CodeCode Available	3
BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities	Dec 10, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	2
MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis	Mar 22, 2024	Medical DiagnosisMedical Visual Question Answering	CodeCode Available	2
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging	Jan 5, 2024	Medical Report GenerationMedical Visual Question Answering	CodeCode Available	2
Med-Flamingo: a Multimodal Medical Few-shot Learner	Jul 27, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	2
BiomedGPT: A Generalist Vision-Language Foundation Model for Diverse Biomedical Tasks	May 26, 2023	Image CaptioningMedical Visual Question Answering	CodeCode Available	2
PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents	Mar 13, 2023	image-classificationImage Classification	CodeCode Available	2
MedAgentBoard: Benchmarking Multi-Agent Collaboration with Conventional Methods for Diverse Medical Tasks	May 18, 2025	BenchmarkingMedical Visual Question Answering	CodeCode Available	1
MedCoT: Medical Chain of Thought via Hierarchical Expert	Dec 18, 2024	DiagnosticMedical Visual Question Answering	CodeCode Available	1
A Survey of Medical Vision-and-Language Applications and Their Techniques	Nov 19, 2024	Decision MakingDiagnostic	CodeCode Available	1
MC-CoT: A Modular Collaborative CoT Framework for Zero-shot Medical-VQA with LLM and MLLM Integration	Oct 6, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models	Sep 23, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Surgical-VQLA++: Adversarial Contrastive Learning for Calibrated Robust Visual Question-Localized Answering in Robotic Surgery	Aug 9, 2024	Contrastive LearningMedical Visual Question Answering	CodeCode Available	1
STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical Question-Answering	Jun 28, 2024	Medical DiagnosisMedical Question Answering	CodeCode Available	1
Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA	May 30, 2024	DiagnosticMedical Diagnosis	CodeCode Available	1
LaPA: Latent Prompt Assist Model For Medical Visual Question Answering	Apr 19, 2024	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations	Feb 10, 2024	DiagnosticHallucination	CodeCode Available	1
MISS: A Generative Pretraining and Finetuning Approach for Med-VQA	Jan 10, 2024	Medical Visual Question AnsweringMulti-Task Learning	CodeCode Available	1
EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images	Oct 28, 2023	Decision MakingMedical Visual Question Answering	CodeCode Available	1
Expert Knowledge-Aware Image Difference Graph Representation Learning for Difference-Aware Medical Visual Question Answering	Jul 22, 2023	Graph Representation LearningLanguage Modeling	CodeCode Available	1
Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology Reporting	Jul 11, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
Masked Vision and Language Pre-training with Unimodal and Multimodal Contrastive Losses for Medical Visual Question Answering	Jul 11, 2023	Language ModelingMedical Visual Question Answering	CodeCode Available	1
Localized Questions in Medical Visual Question Answering	Jul 3, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and Texts	May 18, 2023	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering	May 17, 2023	BenchmarkingDiagnostic	CodeCode Available	1
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining	Apr 26, 2023	cross-modal alignmentMedical Visual Question Answering	CodeCode Available	1
Open-Ended Medical Visual Question Answering Through Prefix Tuning of Language Models	Mar 10, 2023	Language ModelingLanguage Modelling	CodeCode Available	1
BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs	Mar 2, 2023	ArticlesMedical Visual Question Answering	CodeCode Available	1
Self-supervised vision-language pretraining for Medical visual question answering	Nov 24, 2022	Contrastive LearningImage-text matching	CodeCode Available	1
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training	May 24, 2021	Image CaptioningMedical Visual Question Answering	CodeCode Available	1
Multiple Meta-model Quantifying for Medical Visual Question Answering	May 19, 2021	Medical Visual Question AnsweringMeta-Learning	CodeCode Available	1
SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering	Feb 18, 2021	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	1
A Comparison of Pre-trained Vision-and-Language Models for Multimodal Representation Learning across Medical Images and Reports	Sep 3, 2020	Image-text RetrievalMedical Visual Question Answering	CodeCode Available	1
PathVQA: 30000+ Questions for Medical Visual Question Answering	Mar 7, 2020	AI AgentMedical Visual Question Answering	CodeCode Available	1
Overcoming Data Limitation in Medical Visual Question Answering	Sep 26, 2019	DenoisingMedical Visual Question Answering	CodeCode Available	1
Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights	Jul 9, 2025	DiagnosticMedical Visual Question Answering	—Unverified	0
SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning	Jun 26, 2025	In-Context LearningMedical Visual Question Answering	—Unverified	0
GEMeX-ThinkVG: Towards Thinking with Visual Grounding in Medical VQA via Reinforcement Learning	Jun 22, 2025	Answer GenerationDecision Making	—Unverified	0
CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making	Jun 15, 2025	Answer GenerationDecision Making	—Unverified	0
Kvasir-VQA-x1: A Multimodal Dataset for Medical Reasoning and Robust MedVQA in Gastrointestinal Endoscopy	Jun 11, 2025	Medical Visual Question AnsweringQuestion Answering	CodeCode Available	0
MedOrch: Medical Diagnosis with Tool-Augmented Reasoning Agents for Flexible Extensibility	May 30, 2025	Decision MakingMedical Diagnosis	—Unverified	0
A Causal Approach to Mitigate Modality Preference Bias in Medical Visual Question Answering	May 22, 2025	counterfactualMedical Visual Question Answering	—Unverified	0
Toward Effective Reinforcement Learning Fine-Tuning for Medical VQA in Vision-Language Models	May 20, 2025	Medical Visual Question AnsweringQuestion Answering	—Unverified	0
Structure Causal Models and LLMs Integration in Medical Visual Question Answering	May 5, 2025	Causal InferenceMedical Visual Question Answering	—Unverified	0
Bridging the Semantic Gaps: Improving Medical VQA Consistency with LLM-Augmented Question Sets	Apr 16, 2025	DiversityMedical Visual Question Answering	—Unverified	0
Hierarchical Modeling for Medical Visual Question Answering with Cross-Attention Fusion	Apr 4, 2025	DiagnosticMedical Visual Question Answering	—Unverified	0
Vision-Amplified Semantic Entropy for Hallucination Detection in Medical Visual Question Answering	Mar 26, 2025	DiagnosticHallucination	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.