Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 453 papers

Title	Date	Tasks	Status	Hype
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning	Apr 17, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2
SpaceR: Reinforcing MLLMs in Video Spatial Reasoning	Apr 2, 2025	MMESpatial Reasoning	CodeCode Available	2
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead	Mar 31, 2025	MathSpatial Reasoning	CodeCode Available	2
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D	Mar 29, 2025	Spatial Reasoning	CodeCode Available	2
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks	Mar 27, 2025	Imitation LearningMathematical Reasoning	CodeCode Available	2
IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes	Mar 20, 2025	Scene UnderstandingSpatial Reasoning	CodeCode Available	2
Free-form language-based robotic reasoning and grasping	Mar 17, 2025	FormRobotic Grasping	CodeCode Available	2
Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas	Mar 3, 2025	Spatial Reasoning	CodeCode Available	2
Introducing Visual Perception Token into Multimodal Large Language Model	Feb 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	2
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO	Feb 20, 2025	Autonomous NavigationNavigate	CodeCode Available	2
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought	Jan 13, 2025	Spatial Reasoning	CodeCode Available	2
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning	Dec 16, 2024	HallucinationRobot Manipulation	CodeCode Available	2
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action	Dec 7, 2024	Depth EstimationMathematical Reasoning	CodeCode Available	2
Probing the limitations of multimodal language models for chemistry and materials research	Nov 25, 2024	Experimental DesignSpatial Reasoning	CodeCode Available	2
DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving	Nov 20, 2024	Autonomous Drivingmotion prediction	CodeCode Available	2
End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering	Nov 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Locality Alignment Improves Vision-Language Models	Oct 14, 2024	Semantic SegmentationSpatial Reasoning	CodeCode Available	2
Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation	Aug 28, 2024	ObjectSemantic Segmentation	CodeCode Available	2
Is A Picture Worth A Thousand Words? Delving Into Spatial Reasoning for Vision Language Models	Jun 21, 2024	Spatial Reasoning	CodeCode Available	2
Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples	Jun 9, 2024	ARCDiversity	CodeCode Available	2
Getting it Right: Improving Spatial Consistency in Text-to-Image Models	Apr 1, 2024	Spatial Reasoning	CodeCode Available	2
Seeing the roads through the trees: A benchmark for modeling spatial dependencies with aerial imagery	Jan 12, 2024	Object RecognitionRoad Segmentation	CodeCode Available	2
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving	Nov 9, 2023	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	2
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions	Aug 19, 2023	MMEOptical Character Recognition (OCR)	CodeCode Available	2
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes	Aug 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	2

Show:10 25 50

← PrevPage 2 of 19Next →

No leaderboard results yet.