Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 302 papers

Title	Date	Tasks	Status
Progressive Multimodal Reasoning via Active Retrieval	Dec 19, 2024	DiversityMultimodal Reasoning	—Unverified
Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning	Sep 25, 2024	BenchmarkingFormal Logic	—Unverified
PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging	May 17, 2025	Image SegmentationLanguage Modeling	—Unverified
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation	Oct 4, 2024	Language ModellingMultimodal Reasoning	—Unverified
Q-Heart: ECG Question Answering via Knowledge-Informed Multimodal LLMs	May 7, 2025	Electrocardiography (ECG)Language Modeling	—Unverified
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning	Mar 13, 2025	Multimodal Reasoning	—Unverified
Question Aware Vision Transformer for Multimodal Reasoning	Feb 8, 2024	Language ModelingLanguage Modelling	—Unverified
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified
Agentic Multimodal AI for Hyperpersonalized B2B and B2C Advertising in Competitive Markets: An AI-Driven Competitive Advertising Framework	Apr 1, 2025	Decision MakingIn-Context Learning	—Unverified
Agentic 3D Scene Generation with Spatially Contextualized VLMs	May 26, 2025	Multimodal ReasoningScene Generation	—Unverified
RadFabric: Agentic AI System with Reasoning Capability for Radiology	Jun 17, 2025	DiagnosticMultimodal Reasoning	—Unverified
R-Bench: Graduate-level Multi-disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation	May 4, 2025	Language Model EvaluationLanguage Modeling	—Unverified
Reducing the Vision and Language Bias for Temporal Sentence Grounding	Jul 27, 2022	Information RetrievalMultimodal Reasoning	—Unverified
Reinforced MLLM: A Survey on RL-Based Reasoning in Multimodal Large Language Models	Apr 30, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified
A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography	Feb 9, 2025	DiagnosticMultimodal Reasoning	—Unverified
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning	May 31, 2024	Answer GenerationMultimodal Reasoning	—Unverified
Revisiting Reliability in the Reasoning-based Pose Estimation Benchmark	Jul 17, 2025	Multimodal ReasoningPose Estimation	—Unverified
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis	Feb 25, 2024	Code GenerationMultimodal Reasoning	—Unverified
RSVP: Reasoning Segmentation via Visual Prompting and Multi-modal Chain-of-Thought	Jun 4, 2025	Multimodal ReasoningReasoning Segmentation	—Unverified
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified
SAM-R1: Leveraging SAM for Reward Feedback in Multimodal Segmentation via Reinforcement Learning	May 28, 2025	Image SegmentationMultimodal Reasoning	—Unverified
VisualQuest: A Diverse Image Dataset for Evaluating Visual Recognition in LLMs	Mar 25, 2025	DiversityMultimodal Reasoning	—Unverified
Scientists' First Exam: Probing Cognitive Abilities of MLLM via Perception, Understanding, and Reasoning	Jun 12, 2025	AttributeMultimodal Reasoning	—Unverified
Seed1.5-VL Technical Report	May 11, 2025	Mixture-of-ExpertsMultimodal Reasoning	—Unverified
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified
VisualSphinx: Large-Scale Synthetic Vision Logic Puzzles for RL	May 29, 2025	Arithmetic ReasoningImage Generation	—Unverified
Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning	Jun 4, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified
Advancing Conversational Diagnostic AI with Multimodal Reasoning	May 6, 2025	DiagnosticManagement	—Unverified
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning	May 12, 2025	Multimodal Reasoning	—Unverified
SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model	Apr 14, 2025	Anomaly DetectionDomain Adaptation	—Unverified
Sound2Sight: Generating Visual Dynamics from Sound and Context	Jul 23, 2020	Multimodal ReasoningVideo Forecasting	—Unverified
SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning	Jun 2, 2025	Multimodal Reasoningreinforcement-learning	—Unverified
Stacked Latent Attention for Multimodal Reasoning	Jun 1, 2018	Image CaptioningMultimodal Reasoning	—Unverified
SToLa: Self-Adaptive Touch-Language Framework with Tactile Commonsense Reasoning in Open-Ended Scenarios	May 7, 2025	DiversityMixture-of-Experts	—Unverified
VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training	Jun 16, 2025	HallucinationMultimodal Reasoning	—Unverified
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval	Mar 26, 2024	Multimodal ReasoningRetrieval	—Unverified
AdaToken-3D: Dynamic Spatial Gating for Efficient 3D Large Multimodal-Models Reasoning	May 19, 2025	Multimodal ReasoningScene Understanding	—Unverified
The Synergy Dilemma of Long-CoT SFT and RL: Investigating Post-Training Techniques for Reasoning VLMs	Jul 10, 2025	Multimodal ReasoningReinforcement Learning (RL)	—Unverified
VLMGuard-R1: Proactive Safety Alignment for VLMs via Reasoning-Driven Prompt Optimization	Apr 17, 2025	Multimodal ReasoningSafety Alignment	—Unverified
Diving into Self-Evolving Training for Multimodal Reasoning	Dec 23, 2024	Multimodal Reasoning	—Unverified
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents	Jan 28, 2021	Document SummarizationMultimodal Reasoning	—Unverified
DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation	May 25, 2022	Multimodal ReasoningOptical Character Recognition (OCR)	—Unverified
Adapting Vision-Language Models for Evaluating World Models	Jun 22, 2025	Action RecognitionMultimodal Reasoning	—Unverified
Don't Look Only Once: Towards Multimodal Interactive Reasoning with Selective Visual Revisitation	May 24, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
Draw with Thought: Unleashing Multimodal Reasoning for Scientific Diagram Generation	Apr 13, 2025	Code GenerationMultimodal Reasoning	—Unverified
DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning	May 26, 2025	Meta-LearningMultimodal Reasoning	—Unverified
Deep Neural Networks for Visual Reasoning	Sep 24, 2022	Multimodal ReasoningVisual Reasoning	—Unverified
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests	Jan 8, 2025	Multimodal ReasoningMultiple-choice	—Unverified
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models	Mar 19, 2025	MM-VetMultimodal Reasoning	—Unverified

Show:10 25 50

← PrevPage 5 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified