Spatial Reasoning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 453 papers

Title	Date	Tasks	Status	Hype
A Survey for Foundation Models in Autonomous Driving	Feb 2, 2024	3D Object DetectionAutonomous Driving	—Unverified	0
Good at captioning, bad at counting: Benchmarking GPT-4V on Earth observation data	Jan 31, 2024	BenchmarkingChange Detection	CodeCode Available	0
SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities	Jan 22, 2024	Question AnsweringSpatial Reasoning	—Unverified	0
Seeing the roads through the trees: A benchmark for modeling spatial dependencies with aerial imagery	Jan 12, 2024	Object RecognitionRoad Segmentation	CodeCode Available	2
StarCraftImage: A Dataset For Prototyping Spatial Reasoning Methods For Multi-Agent Environments	Jan 9, 2024	ImputationReinforcement Learning (RL)	—Unverified	0
Distortions in Judged Spatial Relations in Large Language Models	Jan 8, 2024	MisconceptionsSpatial Reasoning	—Unverified	0
Advancing Spatial Reasoning in Large Language Models: An In-Depth Evaluation and Enhancement Using the StepGame Benchmark	Jan 8, 2024	Relation MappingSpatial Reasoning	CodeCode Available	1
Location Aware Modular Biencoder for Tourism Question Answering	Jan 4, 2024	Question AnsweringRetrieval	CodeCode Available	0
LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding	Dec 21, 2023	Instruction FollowingLanguage Modeling	—Unverified	0
Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation	Dec 7, 2023	Spatial ReasoningText-to-Video Generation	CodeCode Available	0
Inherent limitations of LLMs regarding spatial information	Dec 5, 2023	Spatial Reasoning	CodeCode Available	0
Exploring and Improving the Spatial Reasoning Abilities of Large Language Models	Dec 2, 2023	Spatial Reasoning	—Unverified	0
FollowEval: A Multi-Dimensional Benchmark for Assessing the Instruction-Following Capability of Large Language Models	Nov 16, 2023	Instruction FollowingLogical Reasoning	—Unverified	0
On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving	Nov 9, 2023	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	2
What's "up" with vision-language models? Investigating their struggle with spatial reasoning	Oct 30, 2023	Spatial Reasoning	CodeCode Available	1
Disentangling Extraction and Reasoning in Multi-hop Spatial Reasoning	Oct 25, 2023	Spatial Reasoning	CodeCode Available	0
DepWiGNN: A Depth-wise Graph Neural Network for Multi-hop Spatial Reasoning in Text	Oct 19, 2023	Graph Neural NetworkSpatial Reasoning	CodeCode Available	0
Vision-Language Models are Zero-Shot Reward Models for Reinforcement Learning	Oct 19, 2023	MuJoCoPrompt Engineering	CodeCode Available	1
Evaluating Robustness of Visual Representations for Object Assembly Task Requiring Spatio-Geometrical Reasoning	Oct 15, 2023	BenchmarkingSpatial Reasoning	—Unverified	0
Integrating Symbolic Reasoning into Neural Generative Models for Design Generation	Oct 13, 2023	Spatial Reasoning	—Unverified	0
SlotGNN: Unsupervised Discovery of Multi-Object Representations and Visual Dynamics	Oct 6, 2023	ObjectObject Discovery	—Unverified	0
Can Large Language Models be Good Path Planners? A Benchmark and Investigation on Spatial-temporal Reasoning	Oct 5, 2023	NavigateSpatial Reasoning	CodeCode Available	1
Improved Baselines with Visual Instruction Tuning	Oct 5, 2023	Factual Inconsistency Detection in Chart CaptioningImage Classification	CodeCode Available	6
Talk2BEV: Language-enhanced Bird's-eye View Maps for Autonomous Driving	Oct 3, 2023	Autonomous DrivingDecision Making	CodeCode Available	1
SmartPlay: A Benchmark for LLMs as Intelligent Agents	Oct 2, 2023	MinecraftSpatial Reasoning	CodeCode Available	1
An Evaluation of ChatGPT-4's Qualitative Spatial Reasoning Capabilities in RCC-8	Sep 27, 2023	Spatial Reasoning	—Unverified	0
Dense 2D-3D Indoor Prediction with Sound via Aligned Cross-Modal Distillation	Sep 20, 2023	3D Scene ReconstructionDepth Estimation	CodeCode Available	0
Multi-camera Bird's Eye View Perception for Autonomous Driving	Sep 16, 2023	Autonomous DrivingSensor Fusion	—Unverified	0
STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning	Sep 13, 2023	RelationRelationship Detection	CodeCode Available	0
DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions	Sep 7, 2023	PositionSpatial Reasoning	CodeCode Available	1
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond	Aug 24, 2023	Chart Question AnsweringFS-MEVQA	CodeCode Available	5
BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual Questions	Aug 19, 2023	MMEOptical Character Recognition (OCR)	CodeCode Available	2
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models	Aug 18, 2023	Image-text matchingObject Localization	—Unverified	0
Chat-3D: Data-efficiently Tuning Large Language Model for Universal Dialogue of 3D Scenes	Aug 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Object Goal Navigation with Recursive Implicit Maps	Aug 10, 2023	NavigateObject	—Unverified	0
Spatial Intelligence of a Self-driving Car and Rule-Based Decision Making	Aug 2, 2023	Autonomous DrivingDecision Making	—Unverified	0
SpaceNLI: Evaluating the Consistency of Predicting Inferences in Space	Jul 5, 2023	Natural Language InferenceNegation	CodeCode Available	0
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation	Jun 30, 2023	Action DetectionPose Prediction	CodeCode Available	2
A Universal Semantic-Geometric Representation for Robotic Manipulation	Jun 18, 2023	3D geometryRobot Manipulation	CodeCode Available	1
Controllable Text-to-Image Generation with GPT-4	May 29, 2023	Image GenerationInstruction Following	—Unverified	0
Neural Task Synthesis for Visual Programming	May 26, 2023	Imitation LearningSpatial Reasoning	CodeCode Available	0
Improved Algorithms for Allen's Interval Algebra by Dynamic Programming with Sublinear Partitioning	May 25, 2023	Spatial Reasoning	—Unverified	0
EgoHumans: An Egocentric 3D Multi-Human Benchmark	May 25, 2023	3D Pose EstimationHuman Detection	CodeCode Available	0
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models	May 23, 2023	Common Sense ReasoningImage Generation	CodeCode Available	2
From Patches to Objects: Exploiting Spatial Reasoning for Better Visual Representations	May 21, 2023	Contrastive LearningLinear evaluation	—Unverified	0
Contextual Reasoning for Scene Generation (Technical Report)	May 3, 2023	Scene GenerationSpatial Reasoning	—Unverified	0
Dialectical language model evaluation: An initial appraisal of the commonsense spatial reasoning abilities of LLMs	Apr 22, 2023	Language Model EvaluationLanguage Modeling	—Unverified	0
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models	Apr 20, 2023	Image DescriptionLanguage Modelling	CodeCode Available	7
Visual Instruction Tuning	Apr 17, 2023	1 Image, 2*2 Stitching3D Question Answering (3D-QA)	CodeCode Available	6
Are LLMs the Master of All Trades? : Exploring Domain-Agnostic Reasoning Skills of LLMs	Mar 22, 2023	AllSpatial Reasoning	CodeCode Available	0

Show:10 25 50

← PrevPage 7 of 10Next →

No leaderboard results yet.