Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–275 of 302 papers

Title	Date	Tasks	Status
EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models	Jan 1, 2025	MM-VetMultimodal Reasoning	—Unverified
Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Unveiling AI's Potential Through Tools, Techniques, and Applications	Oct 2, 2024	AutoMLEdge-computing	—Unverified
EgoPrune: Efficient Token Pruning for Egomotion Video Reasoning in Embodied Agent	Jul 21, 2025	Multimodal Reasoning	—Unverified
Elicit and Enhance: Advancing Multimodal Reasoning in Medical Scenarios	May 29, 2025	Multimodal Reasoning	—Unverified
Decoupling the Image Perception and Multimodal Reasoning for Reasoning Segmentation with Digital Twin Representations	Jun 9, 2025	Large Language ModelMultimodal Reasoning	—Unverified
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models	Oct 25, 2023	Multimodal Reasoning	—Unverified
Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models	Mar 20, 2025	Multimodal ReasoningRecommendation Systems	—Unverified
Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling	Jul 8, 2025	ArticlesMultimodal Reasoning	—Unverified
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization	Nov 15, 2024	Multimodal Reasoning	—Unverified
EnigmaEval: A Benchmark of Long Multimodal Reasoning Challenges	Feb 13, 2025	Humanity's Last ExamMultimodal Reasoning	—Unverified
EVADE: Multimodal Benchmark for Evasive Content Detection in E-Commerce Applications	May 23, 2025	Multimodal Reasoning	—Unverified
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing	Dec 13, 2024	Language ModelingLanguage Modelling	—Unverified
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models	Mar 30, 2025	Image SegmentationLanguage Modeling	—Unverified
Exploring Advanced Techniques for Visual Question Answering: A Comprehensive Comparison	Feb 20, 2025	DiversityLanguage Modeling	—Unverified
Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning	Jan 10, 2024	Multimodal ReasoningSurvey	—Unverified
Towards Holistic Disease Risk Prediction using Small Language Models	Aug 13, 2024	Multimodal Reasoning	—Unverified
FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models	Jun 12, 2025	Cross-Modal RetrievalFederated Learning	—Unverified
VLMT: Vision-Language Multimodal Transformer for Multimodal Multi-hop Question Answering	Apr 11, 2025	cross-modal alignmentInformation Retrieval	—Unverified
FinLMM-R1: Enhancing Financial Reasoning in LMM through Scalable Data and Reward Design	Jun 16, 2025	Answer GenerationArithmetic Reasoning	—Unverified
CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base	Feb 18, 2025	AttributeHallucination	—Unverified
GAM-Agent: Game-Theoretic and Uncertainty-Aware Collaboration for Complex Visual Reasoning	May 29, 2025	Multimodal ReasoningMVBench	—Unverified
GeoGuess: Multimodal Reasoning based on Hierarchy of Visual Information in Street View	Jun 19, 2025	Multimodal Reasoning	—Unverified
GeoSense: Evaluating Identification and Application of Geometric Principles in Multimodal Reasoning	Apr 17, 2025	Geometry Problem SolvingMultimodal Reasoning	—Unverified
Critique Before Thinking: Mitigating Hallucination through Rationale-Augmented Instruction Tuning	May 12, 2025	HallucinationMultimodal Reasoning	—Unverified

Show:10 25 50

← PrevPage 11 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified