Scene Understanding

Scene understanding involves interpreting the visual information of a scene, including objects, their spatial relationships, and the overall layout. It goes beyond simple object recognition by considering the context and how objects relate to each other and the environment.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 751–775 of 1723 papers

Title	Date	Tasks	Status
3D Vision-Language Gaussian Splatting	Oct 10, 2024	3D ReconstructionAutonomous Driving	—Unverified
Evaluating the Impact of Point Cloud Colorization on Semantic Segmentation Accuracy	Oct 9, 2024	ColorizationPoint Cloud Segmentation	—Unverified
Evaluating Multimodal Language Models as Visual Assistants for Visually Impaired Users	Mar 28, 2025	Object RecognitionReading Comprehension	—Unverified
Cataract-1K: Cataract Surgery Dataset for Scene Segmentation, Phase Recognition, and Irregularity Detection	Dec 11, 2023	BenchmarkingDomain Adaptation	—Unverified
CASPNet++: Joint Multi-Agent Motion Prediction	Aug 15, 2023	Autonomous Drivingmotion prediction	—Unverified
Estimating Depth from Monocular Images as Classification Using Deep Fully Convolutional Residual Networks	May 8, 2016	Depth EstimationGeneral Classification	—Unverified
ESGNN: Towards Equivariant Scene Graph Neural Network for 3D Scene Understanding	Jun 30, 2024	Graph GenerationGraph Neural Network	—Unverified
Case-based Reasoning Augmented Large Language Model Framework for Decision Making in Realistic Safety-Critical Driving Scenarios	Jun 25, 2025	Autonomous DrivingDecision Making	—Unverified
Cascaded Classification Models: Combining Models for Holistic Scene Understanding	Dec 1, 2008	3D Reconstruction3D Scene Reconstruction	—Unverified
ePointDA: An End-to-End Simulation-to-Real Domain Adaptation Framework for LiDAR Point Cloud Segmentation	Sep 7, 2020	Autonomous DrivingDomain Adaptation	—Unverified
Car Segmentation and Pose Estimation using 3D Object Models	Dec 21, 2015	3D Pose EstimationImage Segmentation	—Unverified
Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors	Oct 12, 2024	3D Generation3D geometry	—Unverified
A Review and A Robust Framework of Data-Efficient 3D Scene Parsing with Traditional/Learned 3D Descriptors	Dec 3, 2023	Active LearningInstance Segmentation	—Unverified
Enhancing image captioning with depth information using a Transformer-based framework	Jul 24, 2023	Image CaptioningImage Paragraph Captioning	—Unverified
Enhancing Human-Centered Dynamic Scene Understanding via Multiple LLMs Collaborated Reasoning	Mar 15, 2024	Autonomous DrivingHuman-Object Interaction Detection	—Unverified
Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving	Sep 11, 2023	Autonomous DrivingDescriptive	—Unverified
Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding	Jun 17, 2024	3D Object Detection3D Semantic Segmentation	—Unverified
Multilateral Cascading Network for Semantic Segmentation of Large-Scale Outdoor Point Clouds	Sep 21, 2024	Scene UnderstandingSemantic Segmentation	—Unverified
Can MLLMs Guide Me Home? A Benchmark Study on Fine-Grained Visual Reasoning from Transit Maps	May 24, 2025	Scene UnderstandingSpatial Reasoning	—Unverified
A Reinforcement Learning Framework for Natural Question Generation using Bi-discriminators	Aug 1, 2018	AttributeNatural Questions	—Unverified
Advancing Complex Wide-Area Scene Understanding with Hierarchical Coresets Selection	Jul 17, 2025	Scene Understanding	—Unverified
3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing	Aug 25, 2024	Data AugmentationDiversity	—Unverified
End-to-End Race Driving with Deep Reinforcement Learning	Jul 6, 2018	Deep Reinforcement LearningDomain Adaptation	—Unverified
End-to-end Autonomous Driving using Deep Learning: A Systematic Review	Aug 27, 2023	Autonomous Drivingobject-detection	—Unverified
Can LVLMs Obtain a Driver's License? A Benchmark Towards Reliable AGI for Autonomous Driving	Sep 4, 2024	Autonomous DrivingDecision Making	—Unverified

Show:10 25 50

← PrevPage 31 of 69Next →

All datasets Semantic Scene Understanding Challenge (passive actuation & ground-truth localisation)ADE20K val Semantic Scene Understanding Challenge (active actuation & ground-truth localisation)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ACRV Baseline	OMQ	0.44	—	Unverified
2	Team VGAI (TCS Research)	OMQ	0.37	—	Unverified
3	Demo_semantic_SLAM	OMQ	0.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CPN(ResNet-101)	Mean IoU	46.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACRV Baseline	OMQ	0.35	—	Unverified