Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 302 papers

Title	Date	Tasks	Status	Hype
On scalable oversight with weak LLMs judging strong LLMs	Jul 5, 2024	Multimodal ReasoningQuestion Answering	—Unverified	0
Improving Multi-Agent Debate with Sparse Communication Topology	Jun 17, 2024	Multimodal Reasoning	—Unverified	0
MFC-Bench: Benchmarking Multimodal Fact-Checking with Large Vision-Language Models	Jun 17, 2024	BenchmarkingFact Checking	CodeCode Available	1
POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models	Jun 6, 2024	Multimodal ReasoningPrompt Engineering	—Unverified	0
Multimodal Reasoning with Multimodal Knowledge Graph	Jun 4, 2024	cross-modal alignmentGraph Attention	—Unverified	0
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning	May 31, 2024	Answer GenerationMultimodal Reasoning	—Unverified	0
Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models	May 31, 2024	Multimodal ReasoningRetrieval	CodeCode Available	0
M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models	May 24, 2024	Multimodal Reasoning	CodeCode Available	0
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified	0
Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning	May 19, 2024	Multimodal ReasoningQuestion Answering	—Unverified	0
CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models	May 1, 2024	Language ModelingLanguage Modelling	CodeCode Available	1
AccidentBlip: Agent of Accident Warning based on MA-former	Apr 18, 2024	Language ModellingLarge Language Model	—Unverified	0
Exploring the Transferability of Visual Prompting for Multimodal Large Language Models	Apr 17, 2024	HallucinationMultimodal Reasoning	CodeCode Available	1
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V	Apr 16, 2024	Instruction FollowingMultimodal Reasoning	—Unverified	0
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification	Apr 7, 2024	Image ComprehensionMath	CodeCode Available	0
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval	Mar 26, 2024	Multimodal ReasoningRetrieval	—Unverified	0
A Picture Is Worth a Graph: A Blueprint Debate Paradigm for Multimodal Reasoning	Mar 22, 2024	Multimodal Reasoning	CodeCode Available	1
PuzzleVQA: Diagnosing Multimodal Reasoning Challenges of Language Models with Abstract Visual Patterns	Mar 20, 2024	Multimodal Reasoning	CodeCode Available	2
Are Language Models Puzzle Prodigies? Algorithmic Puzzles Unveil Serious Challenges in Multimodal Reasoning	Mar 6, 2024	Multimodal ReasoningQuestion Answering	CodeCode Available	2
VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing	Mar 5, 2024	Multimodal ReasoningSentence	CodeCode Available	0
All in an Aggregated Image for In-Image Learning	Feb 28, 2024	AllHallucination	CodeCode Available	1
Measuring Vision-Language STEM Skills of Neural Models	Feb 27, 2024	Multimodal Reasoning	CodeCode Available	0
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis	Feb 25, 2024	Code GenerationMultimodal Reasoning	—Unverified	0
Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified	0
Stop Reasoning! When Multimodal LLM with Chain-of-Thought Reasoning Meets Adversarial Image	Feb 22, 2024	Adversarial RobustnessMultimodal Reasoning	CodeCode Available	1

Show:10 25 50

← PrevPage 10 of 13Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified