Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 302 papers

Title	Date	Tasks	Status
EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models	Jan 1, 2025	MM-VetMultimodal Reasoning	—Unverified
Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Unveiling AI's Potential Through Tools, Techniques, and Applications	Oct 2, 2024	AutoMLEdge-computing	—Unverified
EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent	Jul 21, 2025	Multimodal Reasoning	—Unverified
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios	May 29, 2025	Multimodal Reasoning	—Unverified
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations	Jun 9, 2025	Large Language ModelMultimodal Reasoning	—Unverified
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models	Oct 25, 2023	Multimodal Reasoning	—Unverified
Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models	Mar 20, 2025	Multimodal ReasoningRecommendation Systems	—Unverified
Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling	Jul 8, 2025	ArticlesMultimodal Reasoning	—Unverified
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization	Nov 15, 2024	Multimodal Reasoning	—Unverified
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges	Feb 13, 2025	Humanity's Last ExamMultimodal Reasoning	—Unverified
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications	May 23, 2025	Multimodal Reasoning	—Unverified
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing	Dec 13, 2024	Language ModelingLanguage Modelling	—Unverified
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models	Mar 30, 2025	Image SegmentationLanguage Modeling	—Unverified
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified
Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning	Jan 10, 2024	Multimodal ReasoningSurvey	—Unverified
Towards Holistic Disease Risk Prediction using Small Language Models	Aug 13, 2024	Multimodal Reasoning	—Unverified
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models	Jun 12, 2025	Cross-Modal RetrievalFederated Learning	—Unverified
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified
FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design	Jun 16, 2025	Answer GenerationArithmetic Reasoning	—Unverified
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base	Feb 18, 2025	AttributeHallucination	—Unverified
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified
GeoGuess: Multimodal Reasoning based on Hierarchy of Visual Information in Street View	Jun 19, 2025	Multimodal Reasoning	—Unverified
GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning	Apr 17, 2025	Geometry Problem SolvingMultimodal Reasoning	—Unverified
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning	May 12, 2025	HallucinationMultimodal Reasoning	—Unverified
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning	Jun 19, 2025	Multimodal Reasoningreinforcement-learning	—Unverified
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans	May 16, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine	Jan 16, 2024	DiagnosticImage Comprehension	—Unverified
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving	Nov 20, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning	Nov 27, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified
Training-Free Personalization via Retrieval and Reasoning on Fingerprints	Mar 24, 2025	AttributeMultimodal Reasoning	—Unverified
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence	Dec 18, 2024	HallucinationMultimodal Reasoning	—Unverified
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Improving Multi-Agent Debate with Sparse Communication Topology	Jun 17, 2024	Multimodal Reasoning	—Unverified
Improving Pre-trained Vision-and-Language Embeddings for Phrase Grounding	Nov 1, 2021	Multimodal ReasoningPhrase Grounding	—Unverified
Incentivizing Multimodal Reasoning in Large Models for Direct Robot Manipulation	May 19, 2025	Multimodal ReasoningRobot Manipulation	—Unverified
Infi-Med: Low-Resource Medical MLLMs with Robust Reasoning Evaluation	May 29, 2025	DiagnosticMultimodal Reasoning	—Unverified
Infi-MMR: Curriculum-based Unlocking Multimodal Reasoning via Phased Reinforcement Learning in Multimodal Small Language Models	May 29, 2025	Logical ReasoningMath	—Unverified
Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning	May 19, 2024	Multimodal ReasoningQuestion Answering	—Unverified
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning	Mar 8, 2025	Multimodal Reasoning	—Unverified
COSINT-Agent: A Knowledge-Driven Multimodal Agent for Chinese Open Source Intelligence	Mar 5, 2025	Multimodal Reasoning	—Unverified
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables	Aug 25, 2024	Multimodal ReasoningQuestion Answering	—Unverified
KokushiMD-10: Benchmark for Evaluating Large Language Models on Ten Japanese National Healthcare Licensing Examinations	Jun 9, 2025	Multimodal ReasoningVisual Reasoning	—Unverified
Training-Free Reasoning and Reflection in MLLMs	May 22, 2025	DecoderMultimodal Reasoning	—Unverified
Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering	Dec 1, 2021	Multimodal ReasoningQuestion Answering	—Unverified
Learning to Ground VLMs without Forgetting	Oct 14, 2024	DecoderLanguage Modelling	—Unverified
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes	Dec 16, 2024	Contrastive LearningMultimodal Reasoning	—Unverified
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V	Apr 16, 2024	Instruction FollowingMultimodal Reasoning	—Unverified
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data	Mar 13, 2025	Large Language ModelMath	—Unverified
ChartReasoner: Code-Driven Modality Bridging for Long-Chain Reasoning in Chart Question Answering	Jun 11, 2025	Chart Question AnsweringImage to text	—Unverified

Show:10 25 50

← PrevPage 6 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified