Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 302 papers

Title	Date	Tasks	Status	Hype
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis	Mar 11, 2025	AllDataset Generation	CodeCode Available	1
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL	Mar 10, 2025	Logical ReasoningMultimodal Reasoning	CodeCode Available	4
MM-Eureka: Exploring Visual Aha Moment with Rule-based Large-scale Reinforcement Learning	Mar 10, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	4
Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models	Mar 9, 2025	MathMultimodal Reasoning	CodeCode Available	5
Can Atomic Step Decomposition Enhance the Self-structured Reasoning of Multimodal Large Models?	Mar 8, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	2
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning	Mar 8, 2025	Multimodal Reasoning	—Unverified	0
R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model	Mar 7, 2025	Multimodal Reasoningreinforcement-learning	CodeCode Available	4
Question-Aware Gaussian Experts for Audio-Visual Question Answering	Mar 6, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	1
COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence	Mar 5, 2025	Multimodal Reasoning	—Unverified	0
Audio-Reasoner: Improving Reasoning Capability in Large Audio Language Models	Mar 4, 2025	Language ModelingLanguage Modelling	CodeCode Available	3
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified	0
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified	0
R1-Onevision：An Open-Source Multimodal Large Language Model Capable of Deep Reasoning	Feb 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	4
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models	Feb 22, 2025	Multimodal Reasoning	—Unverified	0
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified	0
SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models	Feb 19, 2025	counterfactualHallucination	CodeCode Available	0
MM-Verify: Enhancing Multimodal Reasoning with Chain-of-Thought Verification	Feb 19, 2025	Multimodal Reasoning	CodeCode Available	1
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base	Feb 18, 2025	AttributeHallucination	—Unverified	0
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning	Feb 17, 2025	In-Context LearningMultimodal Reasoning	CodeCode Available	0
Code-Vision: Evaluating Multimodal LLMs Logic Understanding and Code Generation Capabilities	Feb 17, 2025	Code GenerationHumanEval	CodeCode Available	1
USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions	Feb 15, 2025	Multimodal ReasoningVisual Question Answering (VQA)	CodeCode Available	0
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges	Feb 13, 2025	Humanity's Last ExamMultimodal Reasoning	—Unverified	0
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified	0
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation	Feb 12, 2025	cross-modal alignmentmultimodal generation	CodeCode Available	3
A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography	Feb 9, 2025	DiagnosticMultimodal Reasoning	—Unverified	0
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified	0
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified	0
Position: Empowering Time Series Reasoning with Multimodal LLMs	Feb 3, 2025	Decision MakingMultimodal Reasoning	—Unverified	0
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles	Feb 3, 2025	ARCMultimodal Reasoning	CodeCode Available	2
Efficient Reasoning with Hidden Thinking	Jan 31, 2025	DecoderMultimodal Reasoning	CodeCode Available	2
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark	Jan 9, 2025	Multimodal Reasoning	—Unverified	0
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests	Jan 8, 2025	Multimodal ReasoningMultiple-choice	—Unverified	0
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0
EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models	Jan 1, 2025	MM-VetMultimodal Reasoning	—Unverified	0
LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering	Dec 24, 2024	Explanatory Visual Question AnsweringMultimodal Reasoning	CodeCode Available	0
Diving into Self-Evolving Training for Multimodal Reasoning	Dec 23, 2024	Multimodal Reasoning	—Unverified	0
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0
Progressive Multimodal Reasoning via Active Retrieval	Dec 19, 2024	DiversityMultimodal Reasoning	—Unverified	0
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available	0
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence	Dec 18, 2024	HallucinationMultimodal Reasoning	—Unverified	0
Do Language Models Understand Time?	Dec 18, 2024	Action RecognitionAnomaly Detection	CodeCode Available	1
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models	Dec 17, 2024	Multimodal Reasoning	CodeCode Available	1
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified	0
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes	Dec 16, 2024	Contrastive LearningMultimodal Reasoning	—Unverified	0
Optimizing Vision-Language Interactions Through Decoder-Only Models	Dec 14, 2024	DecoderImage Captioning	—Unverified	0
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing	Dec 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
Neptune: The Long Orbit to Benchmarking Long Video Understanding	Dec 12, 2024	BenchmarkingMultimodal Reasoning	CodeCode Available	2
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale	Dec 6, 2024	Multimodal ReasoningVisual Question Answering	CodeCode Available	1
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction	Dec 5, 2024	Multimodal ReasoningNatural Language Visual Grounding	CodeCode Available	3
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings	Nov 29, 2024	Multimodal Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified