Scene Understanding

Scene understanding involves interpreting the visual information of a scene, including objects, their spatial relationships, and the overall layout. It goes beyond simple object recognition by considering the context and how objects relate to each other and the environment.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–525 of 1723 papers

Title	Date	Tasks	Status
CASPNet++: Joint Multi-Agent Motion Prediction	Aug 15, 2023	Autonomous Drivingmotion prediction	—Unverified
ExCap3D: Expressive 3D Scene Understanding via Object Captioning with Varying Detail	Mar 21, 2025	ObjectScene Understanding	—Unverified
Going Beyond Multi-Task Dense Prediction with Synergy Embedding Models	Jan 1, 2024	Scene Understanding	—Unverified
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception	Aug 31, 2023	Activity RecognitionHuman Activity Recognition	—Unverified
Estimating Depth from Monocular Images as Classification Using Deep Fully Convolutional Residual Networks	May 8, 2016	Depth EstimationGeneral Classification	—Unverified
Case-based Reasoning Augmented Large Language Model Framework for Decision Making in Realistic Safety-Critical Driving Scenarios	Jun 25, 2025	Autonomous DrivingDecision Making	—Unverified
Explicit3D: Graph Network with Spatial Inference for Single Image 3D Object Detection	Feb 13, 2023	3D Object DetectionGraph Generation	—Unverified
ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding	Jun 30, 2024	Graph GenerationGraph Neural Network	—Unverified
Cascaded Classification Models: Combining Models for Holistic Scene Understanding	Dec 1, 2008	3D Reconstruction3D Scene Reconstruction	—Unverified
Exploiting Temporal Coherence for Multi-modal Video Categorization	Feb 7, 2020	object-detectionObject Detection	—Unverified
Advancing Complex Wide-Area Scene Understanding with Hierarchical Coresets Selection	Jul 17, 2025	Scene Understanding	—Unverified
ePointDA: An End-to-End Simulation-to-Real Domain Adaptation Framework for LiDAR Point Cloud Segmentation	Sep 7, 2020	Autonomous DrivingDomain Adaptation	—Unverified
Car Segmentation and Pose Estimation using 3D Object Models	Dec 21, 2015	3D Pose EstimationImage Segmentation	—Unverified
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors	Oct 12, 2024	3D Generation3D geometry	—Unverified
A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with Traditional/Learned 3D Descriptors	Dec 3, 2023	Active LearningInstance Segmentation	—Unverified
A Reinforcement Learning Framework for Natural Question Generation using Bi-discriminators	Aug 1, 2018	AttributeNatural Questions	—Unverified
Enhancing image captioning with depth information using a Transformer-based framework	Jul 24, 2023	Image CaptioningImage Paragraph Captioning	—Unverified
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning	Mar 15, 2024	Autonomous DrivingHuman-Object Interaction Detection	—Unverified
Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving	Sep 11, 2023	Autonomous DrivingDescriptive	—Unverified
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding	Jun 17, 2024	3D Object Detection3D Semantic Segmentation	—Unverified
Multilateral Cascading Network for Semantic Segmentation of Large-Scale Outdoor Point Clouds	Sep 21, 2024	Scene UnderstandingSemantic Segmentation	—Unverified
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps	May 24, 2025	Scene UnderstandingSpatial Reasoning	—Unverified
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing	Aug 25, 2024	Data AugmentationDiversity	—Unverified
GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding	Nov 20, 2023	Instance SegmentationNeRF	—Unverified
GPT-4V Takes the Wheel: Promises and Challenges for Pedestrian Behavior Prediction	Nov 24, 2023	Autonomous DrivingAutonomous Vehicles	—Unverified

Show:10 25 50

← PrevPage 21 of 69Next →

All datasets Semantic Scene Understanding Challenge (passive actuation & ground-truth localisation)ADE20K val Semantic Scene Understanding Challenge (active actuation & ground-truth localisation)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ACRV Baseline	OMQ	0.44	—	Unverified
2	Team VGAI (TCS Research)	OMQ	0.37	—	Unverified
3	Demo_semantic_SLAM	OMQ	0.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CPN(ResNet-101)	Mean IoU	46.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACRV Baseline	OMQ	0.35	—	Unverified