Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 453 papers

Title	Date	Tasks	Status	Hype
CityEQA: A Hierarchical LLM Agent on Embodied Question Answering Benchmark in City Space	Feb 18, 2025	Embodied Question AnsweringQuestion Answering	CodeCode Available	1
TopViewRS: Vision-Language Models as Top-View Spatial Reasoners	Jun 4, 2024	Multiple-choiceSpatial Reasoning	CodeCode Available	1
Spatial457: A Diagnostic Benchmark for 6D Spatial Reasoning of Large Multimodal Models	Feb 12, 2025	AttributeDiagnostic	CodeCode Available	1
Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations	Jun 5, 2025	4kSpatial Reasoning	CodeCode Available	1
Pix2Shape: Towards Unsupervised Learning of 3D Scenes from Images using a View-based Representation	Mar 23, 2020	DecoderSpatial Reasoning	CodeCode Available	1
Unsupervised Visual Chain-of-Thought Reasoning via Preference Optimization	Apr 25, 2025	Spatial Reasoning	CodeCode Available	1
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability	Sep 30, 2024	Decision MakingManagement	CodeCode Available	1
NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models	Mar 17, 2025	Question AnsweringScene Understanding	CodeCode Available	1
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning	Oct 19, 2023	MuJoCoPrompt Engineering	CodeCode Available	1
Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities	Oct 22, 2024	Spatial Reasoning	CodeCode Available	1
Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space	Mar 14, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models	Mar 25, 2025	BenchmarkingImage Captioning	CodeCode Available	1
Long Range Arena: A Benchmark for Efficient Transformers	Nov 8, 2020	16kBenchmarking	CodeCode Available	1
Visuospatial Cognitive Assistant	May 18, 2025	Spatial Reasoning	CodeCode Available	1
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents	May 26, 2025	BenchmarkingMinecraft	CodeCode Available	1
Warehouse Spatial Question Answering with LLM Agent	Jul 14, 2025	Question AnsweringSpatial Reasoning	CodeCode Available	1
OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection	Sep 30, 2024	DiversityKeypoint Detection	CodeCode Available	1
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension	Apr 12, 2022	image-classificationImage Classification	CodeCode Available	1
Learning and Reasoning with the Graph Structure Representation in Robotic Surgery	Jul 7, 2020	Edge ClassificationGraph Generation	CodeCode Available	1
Knot So Simple: A Minimalistic Environment for Spatial Reasoning	May 23, 2025	Model Predictive ControlSpatial Reasoning	CodeCode Available	1
LLMArena: Assessing Capabilities of Large Language Models in Dynamic Multi-Agent Environments	Feb 26, 2024	Spatial Reasoning	CodeCode Available	1
ING-VP: MLLMs cannot Play Easy Vision-based Games Yet	Oct 9, 2024	Spatial Reasoning	CodeCode Available	1
iVISPAR -- An Interactive Visual-Spatial Reasoning Benchmark for VLMs	Feb 5, 2025	Spatial Reasoning	CodeCode Available	1
Improved Visual-Spatial Reasoning via R1-Zero-Like Training	Apr 1, 2025	GPUSpatial Reasoning	CodeCode Available	1
Joint Spatio-Textual Reasoning for Answering Tourism Questions	Sep 28, 2020	Spatial Reasoning	CodeCode Available	1
IndoNLI: A Natural Language Inference Dataset for Indonesian	Oct 27, 2021	Natural Language InferenceSentence	CodeCode Available	1
End-to-End Egospheric Spatial Memory	Feb 15, 2021	General Reinforcement LearningImitation Learning	CodeCode Available	1
Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning	Oct 5, 2023	NavigateSpatial Reasoning	CodeCode Available	1
GuessWhat?! Visual object discovery through multi-modal dialogue	Nov 23, 2016	ObjectObject Discovery	CodeCode Available	1
Grounded Chain-of-Thought for Multimodal Large Language Models	Mar 17, 2025	HallucinationSpatial Reasoning	CodeCode Available	1
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation	May 13, 2025	Robot ManipulationSpatial Reasoning	CodeCode Available	1
Grounding Consistency: Distilling Spatial Common Sense for Precise Visual Relationship Detection	Jan 1, 2021	Common Sense ReasoningGraph Generation	CodeCode Available	1
Enhancing Reasoning to Adapt Large Language Models for Domain-Specific Applications	Feb 5, 2025	In-Context LearningLanguage Modeling	CodeCode Available	1
HSPFormer: Hierarchical Spatial Perception Transformer for Semantic Segmentation	Jan 16, 2025	Depth EstimationMonocular Depth Estimation	CodeCode Available	1
EmbRACE-3K: Embodied Reasoning and Action in Complex Environments	Jul 14, 2025	Scene UnderstandingSpatial Reasoning	—Unverified	0
ByDeWay: Boost Your multimodal LLM with DEpth prompting in a Training-Free Way	Jul 11, 2025	Depth EstimationHallucination	—Unverified	0
Embodied World Models Emerge from Navigational Task in Open-Ended Environments	Apr 15, 2025	Meta Reinforcement LearningSpatial Reasoning	—Unverified	0
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks	Mar 14, 2025	Spatial Reasoning	—Unverified	0
Bridging Visualization and Optimization: Multimodal Large Language Models on Graph-Structured Combinatorial Optimization	Jan 21, 2025	Combinatorial OptimizationSequential Decision Making	—Unverified	0
A Pilot Evaluation of ChatGPT and DALL-E 2 on Decision Making and Spatial Reasoning	Feb 15, 2023	Decision MakingSpatial Reasoning	—Unverified	0
Embodied Scene Understanding for Vision Language Models via MetaVQA	Jan 15, 2025	Decision MakingQuestion Answering	—Unverified	0
Boosting Diffusion-Based Text Image Super-Resolution Model Towards Generalized Real-World Scenarios	Mar 10, 2025	Image RestorationImage Super-Resolution	—Unverified	0
Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation	Apr 13, 2025	NavigateObject Rearrangement	—Unverified	0
An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities in RCC-8	Sep 27, 2023	Spatial Reasoning	—Unverified	0
3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow	Jan 28, 2025	Instruction FollowingMixture-of-Experts	—Unverified	0
Ego-Humans: An Ego-Centric 3D Multi-Human Benchmark	Jan 1, 2023	3D Pose EstimationHuman Detection	—Unverified	0
A Neural Representation Framework with LLM-Driven Spatial Reasoning for Open-Vocabulary 3D Visual Grounding	Jul 9, 2025	3D visual groundingAutonomous Navigation	—Unverified	0
Ego-Centric Spatial Memory Networks	Jan 1, 2021	CPUGPU	—Unverified	0
EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery	Apr 17, 2025	Large Language ModelMulti-Task Learning	—Unverified	0
Advancing Egocentric Video Question Answering with Multimodal Large Language Models	Apr 6, 2025	Object RecognitionQuestion Answering	—Unverified	0

Show:10 25 50

← PrevPage 3 of 10Next →

No leaderboard results yet.