Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 302 papers

Title	Date	Tasks	Status
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification	Mar 16, 2025	Multimodal Reasoning	—Unverified
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning	Mar 13, 2025	Multimodal Reasoning	—Unverified
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data	Mar 13, 2025	Large Language ModelMath	—Unverified
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions	Mar 12, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Seeing and Reasoning with Confidence: Supercharging Multimodal LLMs with an Uncertainty-Aware Agentic Framework	Mar 11, 2025	Conformal PredictionMultimodal Reasoning	—Unverified
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning	Mar 8, 2025	Multimodal Reasoning	—Unverified
COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence	Mar 5, 2025	Multimodal Reasoning	—Unverified
Shakti-VLMs: Scalable Vision-Language Models for Enterprise AI	Feb 24, 2025	document understandingMultimodal Reasoning	—Unverified
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark	Feb 24, 2025	AllMultimodal Reasoning	—Unverified
Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models	Feb 22, 2025	Multimodal Reasoning	—Unverified
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified
SegSub: Evaluating Robustness to Knowledge Conflicts and Hallucinations in Vision-Language Models	Feb 19, 2025	counterfactualHallucination	CodeCode Available
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base	Feb 18, 2025	AttributeHallucination	—Unverified
Language Models Can See Better: Visual Contrastive Decoding For LLM Multimodal Reasoning	Feb 17, 2025	In-Context LearningMultimodal Reasoning	CodeCode Available
USER-VLM 360: Personalized Vision Language Models with User-aware Tuning for Social Human-Robot Interactions	Feb 15, 2025	Multimodal ReasoningVisual Question Answering (VQA)	CodeCode Available
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges	Feb 13, 2025	Humanity's Last ExamMultimodal Reasoning	—Unverified
MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency	Feb 13, 2025	BenchmarkingMath	—Unverified
A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography	Feb 9, 2025	DiagnosticMultimodal Reasoning	—Unverified
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified
Position: Empowering Time Series Reasoning with Multimodal LLMs	Feb 3, 2025	Decision MakingMultimodal Reasoning	—Unverified
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark	Jan 9, 2025	Multimodal Reasoning	—Unverified
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests	Jan 8, 2025	Multimodal ReasoningMultiple-choice	—Unverified
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available
EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models	Jan 1, 2025	MM-VetMultimodal Reasoning	—Unverified
LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering	Dec 24, 2024	Explanatory Visual Question AnsweringMultimodal Reasoning	CodeCode Available
Diving into Self-Evolving Training for Multimodal Reasoning	Dec 23, 2024	Multimodal Reasoning	—Unverified
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available
Progressive Multimodal Reasoning via Active Retrieval	Dec 19, 2024	DiversityMultimodal Reasoning	—Unverified
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence	Dec 18, 2024	HallucinationMultimodal Reasoning	—Unverified
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes	Dec 16, 2024	Contrastive LearningMultimodal Reasoning	—Unverified
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified
Optimizing Vision-Language Interactions Through Decoder-Only Models	Dec 14, 2024	DecoderImage Captioning	—Unverified
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing	Dec 13, 2024	Language ModelingLanguage Modelling	—Unverified
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning	Nov 27, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving	Nov 20, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization	Nov 15, 2024	Multimodal Reasoning	—Unverified
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level	Nov 15, 2024	Benchmarkingcounterfactual	—Unverified
Towards Low-Resource Harmful Meme Detection with LMM Agents	Nov 8, 2024	Multimodal Reasoning	CodeCode Available
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks	Oct 16, 2024	BenchmarkingLarge Language Model	CodeCode Available
Learning to Ground VLMs without Forgetting	Oct 14, 2024	DecoderLanguage Modelling	—Unverified
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation	Oct 4, 2024	Language ModellingMultimodal Reasoning	—Unverified
NL-Eye: Abductive NLI for Images	Oct 3, 2024	Language ModelingLanguage Modelling	—Unverified
Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Unveiling AI's Potential Through Tools, Techniques, and Applications	Oct 2, 2024	AutoMLEdge-computing	—Unverified
Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning	Sep 25, 2024	BenchmarkingFormal Logic	—Unverified
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available
NVLM: Open Frontier-Class Multimodal LLMs	Sep 17, 2024	MathMultimodal Reasoning	—Unverified

Show:10 25 50

← PrevPage 5 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified