Multimodal Reasoning

Reasoning over multimodal inputs.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 302 papers

Title	Date	Tasks	Status
Knowledge-Aware Reasoning over Multimodal Semi-structured Tables	Aug 25, 2024	Multimodal ReasoningQuestion Answering	—Unverified
Towards Holistic Disease Risk Prediction using Small Language Models	Aug 13, 2024	Multimodal Reasoning	—Unverified
User-in-the-loop Evaluation of Multimodal LLMs for Activity Assistance	Aug 4, 2024	Action AnticipationBenchmarking	—Unverified
Controllable Contextualized Image Captioning: Directing the Visual Narrative through User-Defined Highlights	Jul 16, 2024	Image CaptioningMultimodal Reasoning	CodeCode Available
On scalable oversight with weak LLMs judging strong LLMs	Jul 5, 2024	Multimodal ReasoningQuestion Answering	—Unverified
Improving Multi-Agent Debate with Sparse Communication Topology	Jun 17, 2024	Multimodal Reasoning	—Unverified
POEM: Interactive Prompt Optimization for Enhancing Multimodal Reasoning of Large Language Models	Jun 6, 2024	Multimodal ReasoningPrompt Engineering	—Unverified
Multimodal Reasoning with Multimodal Knowledge Graph	Jun 4, 2024	cross-modal alignmentGraph Attention	—Unverified
Don't Buy it! Reassessing the Ad Understanding Abilities of Contrastive Multimodal Models	May 31, 2024	Multimodal ReasoningRetrieval	CodeCode Available
Retrieval Meets Reasoning: Even High-school Textbook Knowledge Benefits Multimodal Reasoning	May 31, 2024	Answer GenerationMultimodal Reasoning	—Unverified
M4U: Evaluating Multilingual Understanding and Reasoning for Large Multimodal Models	May 24, 2024	Multimodal Reasoning	CodeCode Available
Image-of-Thought Prompting for Visual Reasoning Refinement in Multimodal Large Language Models	May 22, 2024	Multimodal ReasoningVisual Question Answering	—Unverified
Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning	May 19, 2024	Multimodal ReasoningQuestion Answering	—Unverified
AccidentBlip: Agent of Accident Warning based on MA-former	Apr 18, 2024	Language ModellingLarge Language Model	—Unverified
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V	Apr 16, 2024	Instruction FollowingMultimodal Reasoning	—Unverified
MM-MATH: Advancing Multimodal Math Evaluation with Process Evaluation and Fine-grained Classification	Apr 7, 2024	Image ComprehensionMath	CodeCode Available
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval	Mar 26, 2024	Multimodal ReasoningRetrieval	—Unverified
VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing	Mar 5, 2024	Multimodal ReasoningSentence	CodeCode Available
Measuring Vision-Language STEM Skills of Neural Models	Feb 27, 2024	Multimodal Reasoning	CodeCode Available
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis	Feb 25, 2024	Code GenerationMultimodal Reasoning	—Unverified
Exploring Failure Cases in Multimodal Reasoning About Physical Dynamics	Feb 24, 2024	Language ModelingLanguage Modelling	—Unverified
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models	Feb 21, 2024	Geometry Problem SolvingMolecular Property Prediction	—Unverified
Question Aware Vision Transformer for Multimodal Reasoning	Feb 8, 2024	Language ModelingLanguage Modelling	—Unverified
On the generalization capacity of neural networks during generic multimodal reasoning	Jan 26, 2024	Multimodal ReasoningSystematic Generalization	CodeCode Available
Hidden flaws behind expert-level accuracy of multimodal GPT-4 vision in medicine	Jan 16, 2024	DiagnosticImage Comprehension	—Unverified
Exploring the Reasoning Abilities of Multimodal Large Language Models (MLLMs): A Comprehensive Survey on Emerging Trends in Multimodal Reasoning	Jan 10, 2024	Multimodal ReasoningSurvey	—Unverified
Towards a Unified Multimodal Reasoning Framework	Dec 22, 2023	Multimodal ReasoningMultiple-choice	CodeCode Available
Assessing GPT4-V on Structured Reasoning Tasks	Dec 13, 2023	Code GenerationLanguage Modeling	—Unverified
Apollo: Zero-shot MultiModal Reasoning with Multiple Experts	Oct 25, 2023	Image CaptioningMultimodal Reasoning	CodeCode Available
DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models	Oct 25, 2023	Multimodal Reasoning	—Unverified
Personality-aware Human-centric Multimodal Reasoning: A New Task, Dataset and Baselines	Apr 5, 2023	Decision MakingMultimodal Reasoning	—Unverified
AutoFraudNet: A Multimodal Network to Detect Fraud in the Auto Insurance Industry	Jan 15, 2023	Fraud DetectionMultimodal Reasoning	—Unverified
Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval	Oct 23, 2022	Moment RetrievalMultimodal Reasoning	CodeCode Available
Do Vision-and-Language Transformers Learn Grounded Predicate-Noun Dependencies?	Oct 21, 2022	Image-text matchingLanguage Modeling	CodeCode Available
Deep Neural Networks for Visual Reasoning	Sep 24, 2022	Multimodal ReasoningVisual Reasoning	—Unverified
Reducing the Vision and Language Bias for Temporal Sentence Grounding	Jul 27, 2022	Information RetrievalMultimodal Reasoning	—Unverified
DisinfoMeme: A Multimodal Dataset for Detecting Meme Intentionally Spreading Out Disinformation	May 25, 2022	Multimodal ReasoningOptical Character Recognition (OCR)	—Unverified
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language	Apr 1, 2022	DiversityImage Captioning	CodeCode Available
Do Vision-Language Pretrained Models Learn Composable Primitive Concepts?	Mar 31, 2022	Fine-Grained Visual RecognitionMultimodal Reasoning	CodeCode Available
Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering	Dec 1, 2021	Multimodal ReasoningQuestion Answering	—Unverified
Improving Pre-trained Vision-and-Language Embeddings for Phrase Grounding	Nov 1, 2021	Multimodal ReasoningPhrase Grounding	—Unverified
TxT: Crossmodal End-to-End Learning with Transformers	Sep 9, 2021	Multimodal ReasoningQuestion Answering	—Unverified
C^3: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues	Jun 16, 2021	Contrastive Learningcounterfactual	—Unverified
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues	May 15, 2021	Multimodal ReasoningNatural Language Inference	—Unverified
Visual Goal-Step Inference using wikiHow	Apr 12, 2021	Multimodal ReasoningVGSI	CodeCode Available
UniT: Multimodal Multitask Learning with a Unified Transformer	Feb 22, 2021	DecoderMultimodal Reasoning	CodeCode Available
DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents	Jan 28, 2021	Document SummarizationMultimodal Reasoning	—Unverified
Sound2Sight: Generating Visual Dynamics from Sound and Context	Jul 23, 2020	Multimodal ReasoningVideo Forecasting	—Unverified
DMRM: A Dual-channel Multi-hop Reasoning Model for Visual Dialog	Dec 18, 2019	AI AgentDecoder	CodeCode Available
Multimodal Transformer with Multi-View Visual Representation for Image Captioning	May 20, 2019	DecoderImage Captioning	—Unverified

Show:10 25 50

← PrevPage 6 of 7Next →

All datasets REBUS MATH-V AlgoPuzzleVQA

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	GPT-4V	Accuracy	24	—	Unverified
2	Gemini Pro	Accuracy	13.2	—	Unverified
3	LLaVa-1.5-13B	Accuracy	1.8	—	Unverified
4	LLaVa-1.5-7B	Accuracy	1.5	—	Unverified
5	BLIP2-FLAN-T5-XXL	Accuracy	0.9	—	Unverified
6	QWEN	Accuracy	0.9	—	Unverified
7	CogVLM	Accuracy	0.9	—	Unverified
8	InstructBLIP	Accuracy	0.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT4V	Accuracy	22.76	—	Unverified
2	Gemini Pro	Accuracy	17.66	—	Unverified
3	Qwen-VL-Max	Accuracy	15.59	—	Unverified
4	InternLM-XComposer2-VL	Accuracy	14.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	GPT-4	Acc	30.3	—	Unverified