Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 453 papers

Title	Date	Tasks	Status	Hype
Foundation Models for Remote Sensing: An Analysis of MLLMs for Object Localization	Apr 14, 2025	BenchmarkingEarth Observation	—Unverified	0
Perturbed State Space Feature Encoders for Optical Flow with Event Cameras	Apr 14, 2025	Event-based Optical FlowOptical Flow Estimation	—Unverified	0
VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge	Apr 14, 2025	Logical ReasoningMultimodal Reasoning	—Unverified	0
Embodied Chain of Action Reasoning with Multi-Modal Foundation Model for Humanoid Loco-manipulation	Apr 13, 2025	NavigateObject Rearrangement	—Unverified	0
3D CoCa: Contrastive Learners are 3D Captioners	Apr 13, 2025	3D dense captioningCaption Generation	CodeCode Available	0
VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search	Apr 12, 2025	Spatial Reasoning	—Unverified	0
AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations	Apr 10, 2025	Spatial ReasoningVisual Grounding	—Unverified	0
Endowing Embodied Agents with Spatial Reasoning Capabilities for Vision-and-Language Navigation	Apr 9, 2025	HallucinationSpatial Reasoning	—Unverified	0
How to Enable LLM with 3D Capacity? A Survey of Spatial Reasoning in LLM	Apr 8, 2025	Autonomous VehiclesSpatial Reasoning	—Unverified	0
Towards Visual Text Grounding of Multimodal Large Language Model	Apr 7, 2025	BenchmarkingLanguage Modeling	—Unverified	0
Advancing Egocentric Video Question Answering with Multimodal Large Language Models	Apr 6, 2025	Object RecognitionQuestion Answering	—Unverified	0
NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving	Apr 4, 2025	3d scene graph generationAutonomous Driving	—Unverified	0
SpaceR: Reinforcing MLLMs in Video Spatial Reasoning	Apr 2, 2025	MMESpatial Reasoning	CodeCode Available	2
Enabling Systematic Generalization in Abstract Spatial Reasoning through Meta-Learning for Compositionality	Apr 2, 2025	Meta-LearningSpatial Reasoning	CodeCode Available	0
Improved Visual-Spatial Reasoning via R1-Zero-Like Training	Apr 1, 2025	GPUSpatial Reasoning	CodeCode Available	1
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead	Mar 31, 2025	MathSpatial Reasoning	CodeCode Available	2
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D	Mar 29, 2025	Spatial Reasoning	CodeCode Available	2
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks	Mar 27, 2025	Imitation LearningMathematical Reasoning	CodeCode Available	2
Video-R1: Reinforcing Video Reasoning in MLLMs	Mar 27, 2025	MVBenchReinforcement Learning (RL)	CodeCode Available	4
RSRWKV: A Linear-Complexity 2D Attention Mechanism for Efficient Remote Sensing Vision Task	Mar 26, 2025	Spatial Reasoning	—Unverified	0
ST-VLM: Kinematic Instruction Tuning for Spatio-Temporal Reasoning in Vision-Language Models	Mar 25, 2025	4D reconstructionAutonomous Driving	—Unverified	0
Mind the Gap: Benchmarking Spatial Reasoning in Vision-Language Models	Mar 25, 2025	BenchmarkingImage Captioning	CodeCode Available	1
LEGO-Puzzles: How Good Are MLLMs at Multi-Step Spatial Reasoning?	Mar 25, 2025	Autonomous NavigationQuestion Answering	—Unverified	0
DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data	Mar 25, 2025	Robot ManipulationSpatial Reasoning	—Unverified	0
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse	Mar 24, 2025	Layout GenerationReinforcement Learning (RL)	CodeCode Available	3
AlphaSpace: Enabling Robotic Actions through Semantic Tokenization and Symbolic Reasoning	Mar 24, 2025	Spatial Reasoning	—Unverified	0
Aether: Geometric-Aware Unified World Modeling	Mar 24, 2025	Dynamic ReconstructionPrediction	—Unverified	0
MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation	Mar 23, 2025	Language ModelingLanguage Modelling	—Unverified	0
Beyond Semantics: Rediscovering Spatial Awareness in Vision-Language Models	Mar 21, 2025	DiagnosticObject Recognition	—Unverified	0
IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes	Mar 20, 2025	Scene UnderstandingSpatial Reasoning	CodeCode Available	2
Sonata: Self-Supervised Learning of Reliable Point Representations	Mar 20, 2025	3D Semantic SegmentationSelf-Supervised Learning	CodeCode Available	4
A Vision Centric Remote Sensing Benchmark	Mar 20, 2025	Question AnsweringRepresentation Learning	—Unverified	0
OmniGeo: Towards a Multimodal Large Language Models for Geospatial Artificial Intelligence	Mar 20, 2025	Instruction FollowingNatural Language Understanding	—Unverified	0
Statistical applications of the 20/60/20 rule in risk management and portfolio optimization	Mar 19, 2025	ManagementPortfolio Optimization	—Unverified	0
UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction	Mar 19, 2025	NavigateSpatial Reasoning	—Unverified	0
CoSpace: Benchmarking Continuous Space Perception Ability for Vision-Language Models	Mar 18, 2025	BenchmarkingSpatial Reasoning	CodeCode Available	0
NuPlanQA: A Large-Scale Dataset and Benchmark for Multi-View Driving Scene Understanding in Multi-Modal Large Language Models	Mar 17, 2025	Question AnsweringScene Understanding	CodeCode Available	1
Free-form language-based robotic reasoning and grasping	Mar 17, 2025	FormRobotic Grasping	CodeCode Available	2
Grounded Chain-of-Thought for Multimodal Large Language Models	Mar 17, 2025	HallucinationSpatial Reasoning	CodeCode Available	1
VISO-Grasp: Vision-Language Informed Spatial Object-centric 6-DoF Active View Planning and Grasping in Clutter and Invisibility	Mar 16, 2025	Spatial Reasoning	CodeCode Available	1
Logic-RAG: Augmenting Large Multimodal Models with Visual-Spatial Knowledge for Road Scene Understanding	Mar 16, 2025	Autonomous DrivingRAG	CodeCode Available	1
Open3DVQA: A Benchmark for Comprehensive Spatial Reasoning with Multimodal Large Language Model in Open Space	Mar 14, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks	Mar 14, 2025	Spatial Reasoning	—Unverified	0
CleverDistiller: Simple and Spatially Consistent Cross-modal Distillation	Mar 12, 2025	3D Object DetectionAutonomous Driving	—Unverified	0
Boosting Diffusion-Based Text Image Super-Resolution Model Towards Generalized Real-World Scenarios	Mar 10, 2025	Image RestorationImage Super-Resolution	—Unverified	0
Navigating Motion Agents in Dynamic and Cluttered Environments through LLM Reasoning	Mar 10, 2025	Autonomous NavigationMotion Generation	—Unverified	0
PointVLA: Injecting the 3D World into Vision-Language-Action Models	Mar 10, 2025	Imitation LearningSpatial Reasoning	CodeCode Available	4
Towards Ambiguity-Free Spatial Foundation Model: Rethinking and Decoupling Depth Ambiguity	Mar 8, 2025	Depth EstimationScene Understanding	CodeCode Available	0
An Empirical Study of Conformal Prediction in LLM with ASP Scaffolds for Robust Reasoning	Mar 7, 2025	Conformal PredictionLanguage Modelling	—Unverified	0
Factorio Learning Environment	Mar 6, 2025	Program SynthesisSpatial Reasoning	CodeCode Available	4

Show:10 25 50

← PrevPage 3 of 10Next →

No leaderboard results yet.