Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 302 papers

Title	Date	Tasks	Status	Hype
Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration	Feb 4, 2025	AttributeHallucination	—Unverified	0
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking	Feb 4, 2025	Computational EfficiencyMultimodal Reasoning	—Unverified	0
Position: Empowering Time Series Reasoning with Multimodal LLMs	Feb 3, 2025	Decision MakingMultimodal Reasoning	—Unverified	0
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles	Feb 3, 2025	ARCMultimodal Reasoning	CodeCode Available	2
Efficient Reasoning with Hidden Thinking	Jan 31, 2025	DecoderMultimodal Reasoning	CodeCode Available	2
Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark	Jan 9, 2025	Multimodal Reasoning	—Unverified	0
DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests	Jan 8, 2025	Multimodal ReasoningMultiple-choice	—Unverified	0
Socratic Questioning: Learn to Self-guide Multimodal Reasoning in the Wild	Jan 6, 2025	HallucinationMultimodal Reasoning	CodeCode Available	0
EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models	Jan 1, 2025	MM-VetMultimodal Reasoning	—Unverified	0
LININ: Logic Integrated Neural Inference Network for Explanatory Visual Question Answering	Dec 24, 2024	Explanatory Visual Question AnsweringMultimodal Reasoning	CodeCode Available	0
Diving into Self-Evolving Training for Multimodal Reasoning	Dec 23, 2024	Multimodal Reasoning	—Unverified	0
SilVar: Speech Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization	Dec 21, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0
Progressive Multimodal Reasoning via Active Retrieval	Dec 19, 2024	DiversityMultimodal Reasoning	—Unverified	0
FiVL: A Framework for Improved Vision-Language Alignment	Dec 19, 2024	Answer GenerationMultimodal Reasoning	CodeCode Available	0
Cracking the Code of Hallucination in LVLMs with Vision-aware Head Divergence	Dec 18, 2024	HallucinationMultimodal Reasoning	—Unverified	0
Do Language Models Understand Time?	Dec 18, 2024	Action RecognitionAnomaly Detection	CodeCode Available	1
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models	Dec 17, 2024	Multimodal Reasoning	CodeCode Available	1
A Survey of Mathematical Reasoning in the Era of Multimodal Large Language Model: Benchmark, Method & Challenges	Dec 16, 2024	Language ModelingLanguage Modelling	—Unverified	0
Leveraging Retrieval-Augmented Tags for Large Vision-Language Understanding in Complex Scenes	Dec 16, 2024	Contrastive LearningMultimodal Reasoning	—Unverified	0
Optimizing Vision-Language Interactions Through Decoder-Only Models	Dec 14, 2024	DecoderImage Captioning	—Unverified	0
EVLM: Self-Reflective Multimodal Reasoning for Cross-Dimensional Visual Editing	Dec 13, 2024	Language ModelingLanguage Modelling	—Unverified	0
Neptune: The Long Orbit to Benchmarking Long Video Understanding	Dec 12, 2024	BenchmarkingMultimodal Reasoning	CodeCode Available	2
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale	Dec 6, 2024	Multimodal ReasoningVisual Question Answering	CodeCode Available	1
Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction	Dec 5, 2024	Multimodal ReasoningNatural Language Visual Grounding	CodeCode Available	3
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings	Nov 29, 2024	Multimodal Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 8 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified