Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 453 papers

Title	Date	Tasks	Status	Hype
3DSRBench: A Comprehensive 3D Spatial Reasoning Benchmark	Dec 10, 2024	Autonomous NavigationSpatial Reasoning	—Unverified	0
SAT: Dynamic Spatial Aptitude Training for Multimodal Language Models	Dec 10, 2024	Action RecognitionSpatial Reasoning	CodeCode Available	4
TACO: Learning Multi-modal Action Models with Synthetic Chains-of-Thought-and-Action	Dec 7, 2024	Depth EstimationMathematical Reasoning	CodeCode Available	2
VideoSAVi: Self-Aligned Video Language Models without Human Supervision	Dec 1, 2024	EgoSchemaMVBench	—Unverified	0
Can Large Language Models Reason about the Region Connection Calculus?	Nov 29, 2024	Spatial Reasoning	CodeCode Available	0
Grid-augmented vision: A simple yet effective approach for enhanced spatial understanding in multi-modal agents	Nov 27, 2024	Autonomous NavigationObject Recognition	CodeCode Available	0
Dspy-based Neural-Symbolic Pipeline to Enhance Spatial Reasoning in LLMs	Nov 27, 2024	Logical ReasoningSemantic Parsing	—Unverified	0
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos	Nov 26, 2024	Common Sense ReasoningImitation Learning	CodeCode Available	3
APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents	Nov 26, 2024	Few-Shot LearningLarge Language Model	CodeCode Available	0
Probing the limitations of multimodal language models for chemistry and materials research	Nov 25, 2024	Experimental DesignSpatial Reasoning	CodeCode Available	2
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation	Nov 25, 2024	Spatial Reasoning	—Unverified	0
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics	Nov 25, 2024	Robot ManipulationScene Understanding	—Unverified	0
DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving	Nov 20, 2024	Autonomous Drivingmotion prediction	CodeCode Available	2
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games	Nov 20, 2024	BenchmarkingNetHack	—Unverified	0
Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning	Nov 15, 2024	DescriptiveObject	—Unverified	0
Architect: Generating Vivid and Interactive 3D Scenes with Hierarchical 2D Inpainting	Nov 14, 2024	Depth EstimationImage Inpainting	—Unverified	0
AI's Spatial Intelligence: Evaluating AI's Understanding of Spatial Transformations in PSVT:R and Augmented Reality	Nov 9, 2024	Spatial Reasoning	—Unverified	0
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models	Nov 9, 2024	object-detectionObject Detection	CodeCode Available	1
End-to-End Navigation with Vision Language Models: Transforming Spatial Reasoning into Question-Answering	Nov 8, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
GPT-4o System Card	Oct 25, 2024	Multiple-choiceSpatial Reasoning	—Unverified	0
Where Am I and What Will I See: An Auto-Regressive Model for Spatial Localization and View Prediction	Oct 24, 2024	Novel View SynthesisPose Estimation	—Unverified	0
Geometric Feature Enhanced Knowledge Graph Embedding and Spatial Reasoning	Oct 24, 2024	Graph EmbeddingKnowledge Graph Embedding	—Unverified	0
ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting	Oct 23, 2024	Decision MakingMinecraft	CodeCode Available	1
Do Vision-Language Models Represent Space and How? Evaluating Spatial Frame of Reference Under Ambiguities	Oct 22, 2024	Spatial Reasoning	CodeCode Available	1
Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Composite Spatial Reasoning	Oct 21, 2024	Spatial ReasoningSynthetic Data Generation	—Unverified	0
Locality Alignment Improves Vision-Language Models	Oct 14, 2024	Semantic SegmentationSpatial Reasoning	CodeCode Available	2
Testing GPT-4-o1-preview on math and science problems: A follow-up study	Oct 11, 2024	MathSpatial Reasoning	—Unverified	0
Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning	Oct 11, 2024	Language ModelingLanguage Modelling	—Unverified	0
Structured Spatial Reasoning with Open Vocabulary Object Detectors	Oct 9, 2024	ObjectObject Rearrangement	—Unverified	0
ING-VP: MLLMs cannot Play Easy Vision-based Games Yet	Oct 9, 2024	Spatial Reasoning	CodeCode Available	1
Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark	Oct 6, 2024	Mathematical ReasoningSpatial Reasoning	CodeCode Available	0
Evaluation of Code LLMs on Geospatial Code Generation	Oct 6, 2024	Code GenerationSpatial Reasoning	CodeCode Available	0
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models	Oct 4, 2024	Scene UnderstandingSpatial Reasoning	—Unverified	0
Social Conjuring: Multi-User Runtime Collaboration with AI in Building Virtual 3D Worlds	Sep 30, 2024	Spatial Reasoning	—Unverified	0
OpenKD: Opening Prompt Diversity for Zero- and Few-shot Keypoint Detection	Sep 30, 2024	DiversityKeypoint Detection	CodeCode Available	1
VideoINSTA: Zero-shot Long Video Understanding via Informative Spatial-Temporal Reasoning with LLMs	Sep 30, 2024	EgoSchemaLanguage Modelling	CodeCode Available	1
On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability	Sep 30, 2024	Decision MakingManagement	CodeCode Available	1
Spatial Reasoning and Planning for Deep Embodied Agents	Sep 28, 2024	Autonomous DrivingMinecraft	—Unverified	0
DARE: Diverse Visual Question Answering with Robustness Evaluation	Sep 26, 2024	image-classificationImage Classification	—Unverified	0
Can Vision Language Models Learn from Visual Demonstrations of Ambiguous Spatial Reasoning?	Sep 25, 2024	In-Context LearningNovel Concepts	CodeCode Available	0
Tag Map: A Text-Based Map for Spatial Reasoning and Navigation with Large Language Models	Sep 23, 2024	Common Sense ReasoningSpatial Reasoning	—Unverified	0
Enhancing Logical Reasoning in Large Language Models through Graph-based Synthetic Data	Sep 19, 2024	Logical ReasoningSpatial Reasoning	CodeCode Available	0
Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models	Sep 15, 2024	Spatial Reasoning	—Unverified	0
ActionFlow: Equivariant, Accurate, and Efficient Policies with Spatially Symmetric Flow Matching	Sep 6, 2024	Action GenerationSpatial Reasoning	—Unverified	0
Cog-GA: A Large Language Models-based Generative Agent for Vision-Language Navigation in Continuous Environments	Sep 4, 2024	Continual LearningNavigate	—Unverified	0
AeroVerse: UAV-Agent Benchmark Suite for Simulating, Pre-training, Finetuning, and Evaluating Aerospace Embodied World Models	Aug 28, 2024	Spatial ReasoningTask Planning	—Unverified	0
Unleashing the Temporal-Spatial Reasoning Capacity of GPT for Training-Free Audio and Language Referenced Video Object Segmentation	Aug 28, 2024	ObjectSemantic Segmentation	CodeCode Available	2
Atari-GPT: Benchmarking Multimodal Large Language Models as Low-Level Policies in Atari Games	Aug 28, 2024	Atari GamesBenchmarking	—Unverified	0
Poly2Vec: Polymorphic Fourier-Based Encoding of Geospatial Objects for GeoAI Applications	Aug 27, 2024	Spatial Reasoning	—Unverified	0
Can LLM be a Good Path Planner based on Prompt Engineering? Mitigating the Hallucination for Path Planning	Aug 23, 2024	HallucinationPrompt Engineering	—Unverified	0

Show:10 25 50

← PrevPage 5 of 10Next →

No leaderboard results yet.