Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 453 papers

Title	Date	Tasks	Status	Hype
SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing	Jun 4, 2025	Spatial Reasoning	—Unverified	0
RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics	Jun 4, 2025	Spatial Reasoning	—Unverified	0
OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models	Jun 3, 2025	Object CountingSpatial Reasoning	—Unverified	0
ReSpace: Text-Driven 3D Scene Synthesis and Editing with Preference Alignment	Jun 3, 2025	Indoor Scene SynthesisObject	—Unverified	0
In-the-wild Audio Spatialization with Flexible Text-guided Localization	Jun 1, 2025	Spatial Reasoning	CodeCode Available	0
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces	May 30, 2025	Spatial Reasoning	—Unverified	0
Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames	May 30, 2025	ObjectSpatial Reasoning	—Unverified	0
VideoCAD: A Large-Scale Video Dataset for Learning UI Interactions and 3D Reasoning from CAD Software	May 30, 2025	Question AnsweringSpatial Reasoning	CodeCode Available	1
Learning from Videos for 3D World: Enhancing MLLMs with 3D Vision Geometry Priors	May 30, 2025	3D geometryLarge Language Model	CodeCode Available	0
Seeing is Not Reasoning: MVPBench for Graph-based Evaluation of Multi-path Visual Physical CoT	May 30, 2025	Spatial ReasoningVisual Reasoning	CodeCode Available	1
Uni-MuMER: Unified Multi-Task Fine-Tuning of Vision-Language Model for Handwritten Mathematical Expression Recognition	May 29, 2025	Handwritten Mathmatical Expression RecognitionLanguage Modeling	CodeCode Available	1
MMSI-Bench: A Benchmark for Multi-Image Spatial Intelligence	May 29, 2025	Multiple-choiceSpatial Reasoning	—Unverified	0
Grounded Reinforcement Learning for Visual Reasoning	May 29, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	0
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks	May 29, 2025	Spatial Reasoning	CodeCode Available	2
Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence	May 29, 2025	Spatial Reasoning	—Unverified	0
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge	May 28, 2025	Imitation LearningMath	CodeCode Available	1
VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models	May 27, 2025	Spatial ReasoningVisual Tracking	—Unverified	0
Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models	May 27, 2025	DiagnosticSpatial Reasoning	—Unverified	0
MineAnyBuild: Benchmarking Spatial Planning for Open-world AI Agents	May 26, 2025	BenchmarkingMinecraft	CodeCode Available	1
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction	May 26, 2025	3D ReconstructionSpatial Reasoning	CodeCode Available	3
MEBench: A Novel Benchmark for Understanding Mutual Exclusivity Bias in Vision-Language Models	May 26, 2025	Spatial Reasoning	—Unverified	0
Agentic 3D Scene Generation with Spatially Contextualized VLMs	May 26, 2025	Multimodal ReasoningScene Generation	—Unverified	0
ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers	May 26, 2025	cross-modal alignmentPosition	—Unverified	0
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps	May 24, 2025	Scene UnderstandingSpatial Reasoning	—Unverified	0
U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding	May 23, 2025	BenchmarkingSpatial Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 19Next →

No leaderboard results yet.