Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–400 of 453 papers

Title	Date	Tasks	Status
Structured Spatial Reasoning with Open Vocabulary Object Detectors	Oct 9, 2024	ObjectObject Rearrangement	—Unverified
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models	Mar 25, 2025	4D reconstructionAutonomous Driving	—Unverified
Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models	Sep 23, 2024	Common Sense ReasoningSpatial Reasoning	—Unverified
Talking about the Moving Image: A Declarative Model for Image Schema Based Embodied Perception Grounding and Language Generation	Aug 13, 2015	Spatial ReasoningText Generation	—Unverified
Testing GPT-4-o1-preview on math and science problems: A follow-up study	Oct 11, 2024	MathSpatial Reasoning	—Unverified
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation	Nov 25, 2024	Spatial Reasoning	—Unverified
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering	Sep 21, 2022	Image CaptioningOptical Character Recognition (OCR)	—Unverified
Towards Dynamic 3D Reconstruction of Hand-Instrument Interaction in Ophthalmic Surgery	May 23, 2025	3D ReconstructionHand Pose Estimation	—Unverified
Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds	May 20, 2025	Spatial Reasoning	—Unverified
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models	Aug 18, 2023	Image-text matchingObject Localization	—Unverified
Towards Navigation by Reasoning over Spatial Configurations	May 14, 2021	Spatial Reasoning	—Unverified
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified
U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding	May 23, 2025	BenchmarkingSpatial Reasoning	—Unverified
UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction	Mar 19, 2025	NavigateSpatial Reasoning	—Unverified
Unifying Map and Landmark Based Representations for Visual Navigation	Dec 21, 2017	NavigateSpatial Reasoning	—Unverified
Unsupervised Representation Learning Facilitates Human-like Spatial Reasoning	Oct 12, 2021	Representation LearningSpatial Reasoning	—Unverified
Video Perception Models for 3D Scene Synthesis	Jun 25, 2025	3D ReconstructionImage Generation	—Unverified
VideoSAVi: Self-Aligned Video Language Models without Human Supervision	Dec 1, 2024	EgoSchemaMVBench	—Unverified
VisionArena: 230K Real World User-VLM Conversations with Preference Labels	Dec 11, 2024	ChatbotSpatial Reasoning	—Unverified
Vision-Integrated LLMs for Autonomous Driving Assistance : Human Performance Comparison and Trust Evaluation	Feb 6, 2025	Autonomous DrivingDecision Making	—Unverified
Visual Agentic AI for Spatial Reasoning with a Dynamic API	Feb 10, 2025	Program SynthesisSpatial Reasoning	—Unverified
VisualEchoes: Spatial Image Representation Learning through Echolocation	May 4, 2020	Depth EstimationMonocular Depth Estimation	—Unverified
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces	May 30, 2025	Spatial Reasoning	—Unverified
Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning	Nov 15, 2024	DescriptiveObject	—Unverified
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search	Apr 12, 2025	Spatial Reasoning	—Unverified
ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers	May 26, 2025	cross-modal alignmentPosition	—Unverified
VLM Can Be a Good Assistant: Enhancing Embodied Visual Tracking with Self-Improving Vision-Language Models	May 27, 2025	Spatial ReasoningVisual Tracking	—Unverified
VLM-R^3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought	May 22, 2025	Spatial Reasoning	—Unverified
VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning	Feb 2, 2025	Spatial ReasoningVision-Language Navigation	—Unverified
What is needed for simple spatial language capabilities in VQA?	Aug 17, 2019	DiagnosticQuestion Answering	—Unverified
Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction	Oct 24, 2024	Novel View SynthesisPose Estimation	—Unverified
Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities	Jun 20, 2024	Spatial ReasoningVisual Reasoning	—Unverified
WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences	Jun 16, 2024	BenchmarkingSpatial Reasoning	—Unverified
Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model	Aug 1, 2024	EgoSchemaLanguage Modeling	—Unverified
SEM: Enhancing Spatial Understanding for Robust Robot Manipulation	May 22, 2025	3D geometryRobot Manipulation	—Unverified
ShotBench: Expert-Level Cinematic Understanding in Vision-Language Models	Jun 26, 2025	Spatial ReasoningVideo Generation	—Unverified
SIRI-Bench: Challenging VLMs' Spatial Intelligence through Complex Reasoning Tasks	Jun 17, 2025	MathSpatial Reasoning	—Unverified
SITE: towards Spatial Intelligence Thorough Evaluation	May 8, 2025	Question AnsweringSpatial Reasoning	—Unverified
Situational Grounding within Multimodal Simulations	Feb 5, 2019	Novel ConceptsSpatial Reasoning	—Unverified
SKE-Layout: Spatial Knowledge Enhanced Layout Generation with LLMs	Jan 1, 2025	Contrastive LearningImage Generation	—Unverified
Skeleton-Based Action Recognition with Spatial Reasoning and Temporal Stack Learning	May 7, 2018	Action RecognitionGraph Neural Network	—Unverified
Representation Learning for Grounded Spatial Reasoning	Jul 13, 2017	reinforcement-learningReinforcement Learning	CodeCode Available
Reframing Spatial Reasoning Evaluation in Language Models: A Real-World Simulation Benchmark for Qualitative Reasoning	May 23, 2024	Logical Reasoning Question AnsweringSpatial Reasoning	CodeCode Available
In-the-wild Audio Spatialization with Flexible Text-guided Localization	Jun 1, 2025	Spatial Reasoning	CodeCode Available
VisFactor: Benchmarking Fundamental Visual Cognition in Multimodal Large Language Models	Feb 23, 2025	BenchmarkingSpatial Reasoning	CodeCode Available
Show, Don't Tell: Evaluating Large Language Models Beyond Textual Understanding with ChildPlay	Jul 12, 2024	Spatial Reasoning	CodeCode Available
Inherent limitations of LLMs regarding spatial information	Dec 5, 2023	Spatial Reasoning	CodeCode Available
A Trajectory Calculus for Qualitative Spatial Reasoning Using Answer Set Programming	Apr 19, 2018	Spatial Reasoning	CodeCode Available
ImplicitQA: Going beyond frames towards Implicit Video Reasoning	Jun 26, 2025	Spatial Reasoning	CodeCode Available

Show:10 25 50

← PrevPage 8 of 10Next →

No leaderboard results yet.