Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 302 papers

Title	Date	Tasks	Status	Hype
Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning	Nov 27, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified	0
Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving	Nov 20, 2024	Autonomous DrivingMultimodal Reasoning	—Unverified	0
Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination	Nov 15, 2024	HallucinationMultimodal Reasoning	CodeCode Available	1
LLaVA-CoT: Let Vision Language Models Reason Step-by-Step	Nov 15, 2024	Logical ReasoningMultimodal Reasoning	CodeCode Available	7
Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization	Nov 15, 2024	Multimodal Reasoning	—Unverified	0
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level	Nov 15, 2024	Benchmarkingcounterfactual	—Unverified	0
Towards Low-Resource Harmful Meme Detection with LMM Agents	Nov 8, 2024	Multimodal Reasoning	CodeCode Available	0
Distill Visual Chart Reasoning Ability from LLMs to MLLMs	Oct 24, 2024	Multimodal ReasoningVisual Reasoning	CodeCode Available	2
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks	Oct 16, 2024	BenchmarkingLarge Language Model	CodeCode Available	0
Learning to Ground VLMs without Forgetting	Oct 14, 2024	DecoderLanguage Modelling	—Unverified	0
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation	Oct 4, 2024	Language ModellingMultimodal Reasoning	—Unverified	0
NL-Eye: Abductive NLI for Images	Oct 3, 2024	Language ModelingLanguage Modelling	—Unverified	0
Deep Learning and Machine Learning, Advancing Big Data Analytics and Management: Unveiling AI's Potential Through Tools, Techniques, and Applications	Oct 2, 2024	AutoMLEdge-computing	—Unverified	0
Proof of Thought : Neurosymbolic Program Synthesis allows Robust and Interpretable Reasoning	Sep 25, 2024	BenchmarkingFormal Logic	—Unverified	0
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images	Sep 19, 2024	HallucinationImage Captioning	CodeCode Available	0
NVLM: Open Frontier-Class Multimodal LLMs	Sep 17, 2024	MathMultimodal Reasoning	—Unverified	0
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables	Aug 25, 2024	Multimodal ReasoningQuestion Answering	—Unverified	0
Math-PUMA: Progressive Upward Multimodal Alignment to Enhance Mathematical Reasoning	Aug 16, 2024	MathMathematical Reasoning	CodeCode Available	1
Towards Holistic Disease Risk Prediction using Small Language Models	Aug 13, 2024	Multimodal Reasoning	—Unverified	0
DC3DO: Diffusion Classifier for 3D Objects	Aug 13, 2024	3D Object ClassificationClassification	CodeCode Available	1
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified	0
MuChoMusic: Evaluating Music Understanding in Multimodal Audio-Language Models	Aug 2, 2024	Multimodal ReasoningMultiple-choice	CodeCode Available	3
LLMs can be Dangerous Reasoners: Analyzing-based Jailbreak Attack on Large Language Models	Jul 23, 2024	Multimodal ReasoningPrompt Engineering	CodeCode Available	1
HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning	Jul 22, 2024	BenchmarkingHallucination	CodeCode Available	1
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights	Jul 16, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available	0

Show:10 25 50

← PrevPage 9 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified