Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 453 papers

Title	Date	Tasks	Status	Hype	Score
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models	Apr 20, 2023	Image DescriptionLanguage Modelling	CodeCode Available	7	5
When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models	May 16, 2024	In-Context LearningQuestion Answering	CodeCode Available	7	5
GPT-4 Technical Report	Mar 15, 2023	answerability predictionArithmetic Reasoning	CodeCode Available	6	5
Improved Baselines with Visual Instruction Tuning	Oct 5, 2023	Factual Inconsistency Detection in Chart CaptioningImage Classification	CodeCode Available	6	5
Visual Instruction Tuning	Apr 17, 2023	1 Image, 2*2 Stitching3D Question Answering (3D-QA)	CodeCode Available	6	5
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	Aug 24, 2023	Chart Question AnsweringFS-MEVQA	CodeCode Available	5	5
Video-R1: Reinforcing Video Reasoning in MLLMs	Mar 27, 2025	MVBenchReinforcement Learning (RL)	CodeCode Available	4	5
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces	Dec 18, 2024	Question AnsweringSpatial Reasoning	CodeCode Available	4	5
SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models	Dec 10, 2024	Action RecognitionSpatial Reasoning	CodeCode Available	4	5
Sonata: Self-Supervised Learning of Reliable Point Representations	Mar 20, 2025	3D Semantic SegmentationSelf-Supervised Learning	CodeCode Available	4	5
Factorio Learning Environment	Mar 6, 2025	Program SynthesisSpatial Reasoning	CodeCode Available	4	5
PointVLA: Injecting the 3D World into Vision-Language-Action Models	Mar 10, 2025	Imitation LearningSpatial Reasoning	CodeCode Available	4	5
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation	Feb 18, 2025	Object RearrangementRobot Manipulation	CodeCode Available	3	5
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos	Nov 26, 2024	Common Sense ReasoningImitation Learning	CodeCode Available	3	5
MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse	Mar 24, 2025	Layout GenerationReinforcement Learning (RL)	CodeCode Available	3	5
VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction	May 26, 2025	3D ReconstructionSpatial Reasoning	CodeCode Available	3	5
Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models	Jun 13, 2024	Mathobject-detection	CodeCode Available	3	5
SpatialBot: Precise Spatial Understanding with Vision Language Models	Jun 19, 2024	Spatial Reasoning	CodeCode Available	3	5
Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation	Aug 28, 2024	ObjectSemantic Segmentation	CodeCode Available	2	5
Imagine while Reasoning in Space: Multimodal Visualization-of-Thought	Jan 13, 2025	Spatial Reasoning	CodeCode Available	2	5
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning	Dec 16, 2024	HallucinationRobot Manipulation	CodeCode Available	2	5
Text-to-CadQuery: A New Paradigm for CAD Generation with Scalable Large Model Capabilities	May 10, 2025	Spatial Reasoning	CodeCode Available	2	5
SpaceR: Reinforcing MLLMs in Video Spatial Reasoning	Apr 2, 2025	MMESpatial Reasoning	CodeCode Available	2	5
DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving	Nov 20, 2024	Autonomous Drivingmotion prediction	CodeCode Available	2	5
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning	Apr 17, 2025	Multimodal ReasoningReinforcement Learning (RL)	CodeCode Available	2	5
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action	Dec 7, 2024	Depth EstimationMathematical Reasoning	CodeCode Available	2	5
AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO	Feb 20, 2025	Autonomous NavigationNavigate	CodeCode Available	2	5
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding	May 22, 2025	Motion EstimationQuestion Answering	CodeCode Available	2	5
End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering	Nov 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	2	5
ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks	May 29, 2025	Spatial Reasoning	CodeCode Available	2	5
Seeing the roads through the trees: A benchmark for modeling spatial dependencies with aerial imagery	Jan 12, 2024	Object RecognitionRoad Segmentation	CodeCode Available	2	5
Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing	Jun 11, 2025	Multimodal ReasoningSpatial Reasoning	CodeCode Available	2	5
Probing the limitations of multimodal language models for chemistry and materials research	Nov 25, 2024	Experimental DesignSpatial Reasoning	CodeCode Available	2	5
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation	Jun 30, 2023	Action DetectionPose Prediction	CodeCode Available	2	5
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving	Nov 9, 2023	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	2	5
Free-form language-based robotic reasoning and grasping	Mar 17, 2025	FormRobotic Grasping	CodeCode Available	2	5
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes	Aug 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	2	5
Locality Alignment Improves Vision-Language Models	Oct 14, 2024	Semantic SegmentationSpatial Reasoning	CodeCode Available	2	5
From Flatland to Space: Teaching Vision-Language Models to Perceive and Reason in 3D	Mar 29, 2025	Spatial Reasoning	CodeCode Available	2	5
Flow of Reasoning:Training LLMs for Divergent Problem Solving with Minimal Examples	Jun 9, 2024	ARCDiversity	CodeCode Available	2	5
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models	May 23, 2023	Common Sense ReasoningImage Generation	CodeCode Available	2	5
ConceptFusion: Open-set Multimodal 3D Mapping	Feb 14, 2023	3D geometryAutonomous Driving	CodeCode Available	2	5
Introducing Visual Perception Token into Multimodal Large Language Model	Feb 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	2	5
InfiGUI-R1: Advancing Multimodal GUI Agents from Reactive Actors to Deliberative Reasoners	Apr 19, 2025	Action GenerationLogical Reasoning	CodeCode Available	2	5
GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning	May 22, 2025	AttributeImage Generation	CodeCode Available	2	5
Getting it Right: Improving Spatial Consistency in Text-to-Image Models	Apr 1, 2024	Spatial Reasoning	CodeCode Available	2	5
IRef-VLA: A Benchmark for Interactive Referential Grounding with Imperfect Language in 3D Scenes	Mar 20, 2025	Scene UnderstandingSpatial Reasoning	CodeCode Available	2	5
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions	Aug 19, 2023	MMEOptical Character Recognition (OCR)	CodeCode Available	2	5
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks	Mar 27, 2025	Imitation LearningMathematical Reasoning	CodeCode Available	2	5
Inference-Time Scaling for Complex Tasks: Where We Stand and What Lies Ahead	Mar 31, 2025	MathSpatial Reasoning	CodeCode Available	2	5

Show:10 25 50

← PrevPage 1 of 10Next →

No leaderboard results yet.