Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 302 papers

Title	Date	Tasks	Status	Hype
Affordable AI Assistants with Knowledge Graph of Thoughts	Apr 3, 2025	Knowledge GraphsLLM real-life tasks	CodeCode Available	3
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning	Apr 1, 2025	Audio-visual Question AnsweringAudio-Visual Question Answering (AVQA)	CodeCode Available	2
Agentic Multimodal AI for Hyperpersonalized B2B and B2C Advertising in Competitive Markets: An AI-Driven Competitive Advertising Framework	Apr 1, 2025	Decision MakingIn-Context Learning	—Unverified	0
Boosting MLLM Reasoning with Text-Debiased Hint-GRPO	Mar 31, 2025	Mathematical ReasoningMultimodal Reasoning	CodeCode Available	1
Evolutionary Prompt Optimization Discovers Emergent Multimodal Reasoning Strategies in Vision-Language Models	Mar 30, 2025	Image SegmentationLanguage Modeling	—Unverified	0
3MDBench: Medical Multimodal Multi-agent Dialogue Benchmark	Mar 26, 2025	DiagnosticMultimodal Reasoning	CodeCode Available	1
VisualQuest: A Diverse Image Dataset for Evaluating Visual Recognition in LLMs	Mar 25, 2025	DiversityMultimodal Reasoning	—Unverified	0
Training-Free Personalization via Retrieval and Reasoning on Fingerprints	Mar 24, 2025	AttributeMultimodal Reasoning	—Unverified	0
Mind with Eyes: from Language Reasoning to Multimodal Reasoning	Mar 23, 2025	Action GenerationMultimodal Reasoning	—Unverified	0
OpenVLThinker: An Early Exploration to Complex Vision-Language Reasoning via Iterative Self-Improvement	Mar 21, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2
Towards Agentic Recommender Systems in the Era of Multimodal Large Language Models	Mar 20, 2025	Multimodal ReasoningRecommendation Systems	—Unverified	0
EfficientLLaVA:Generalizable Auto-Pruning for Large Vision-language Models	Mar 19, 2025	MM-VetMultimodal Reasoning	—Unverified	0
LLaVA-MORE: A Comparative Study of LLMs and Visual Backbones for Enhanced Visual Instruction Tuning	Mar 19, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available	2
Mitigating Visual Forgetting via Take-along Visual Conditioning for Multi-modal Long CoT Reasoning	Mar 17, 2025	Mathematical ReasoningMultimodal Reasoning	—Unverified	0
MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research	Mar 17, 2025	ArticlesBenchmarking	CodeCode Available	1
DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding	Mar 17, 2025	Domain GeneralizationMultimodal Reasoning	CodeCode Available	2
MPBench: A Comprehensive Multimodal Reasoning Benchmark for Process Errors Identification	Mar 16, 2025	Multimodal Reasoning	—Unverified	0
Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition	Mar 16, 2025	Caption GenerationImage Captioning	CodeCode Available	1
VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity	Mar 14, 2025	BenchmarkingDecision Making	—Unverified	0
Chat-TS: Enhancing Multi-Modal Reasoning Over Time-Series and Natural Language Data	Mar 13, 2025	Large Language ModelMath	—Unverified	0
How Do Multimodal Large Language Models Handle Complex Multimodal Reasoning? Placing Them in An Extensible Escape Game	Mar 13, 2025	Multimodal ReasoningQuestion Answering	CodeCode Available	1
R1-Onevision: Advancing Generalized Multimodal Reasoning through Cross-Modal Formalization	Mar 13, 2025	Multimodal Reasoning	CodeCode Available	4
VisualPRM: An Effective Process Reward Model for Multimodal Reasoning	Mar 13, 2025	Multimodal Reasoning	—Unverified	0
MindGYM: Enhancing Vision-Language Models via Synthetic Self-Challenging Questions	Mar 12, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified	0
Oasis: One Image is All You Need for Multimodal Instruction Data Synthesis	Mar 11, 2025	AllDataset Generation	CodeCode Available	1

Show:10 25 50

← PrevPage 6 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified