Scene Understanding

Scene understanding involves interpreting the visual information of a scene, including objects, their spatial relationships, and the overall layout. It goes beyond simple object recognition by considering the context and how objects relate to each other and the environment.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1001–1050 of 1723 papers

Title	Date	Tasks	Status
PAg-NeRF: Towards fast and efficient end-to-end panoptic 3D representations for agricultural robotics	Sep 11, 2023	3D ReconstructionCamera Localization	—Unverified
Can you text what is happening? Integrating pre-trained language encoders into trajectory prediction models for autonomous driving	Sep 11, 2023	Autonomous DrivingDescriptive	—Unverified
Weakly Supervised Point Clouds Transformer for 3D Object Detection	Sep 8, 2023	3D Object DetectionObject	—Unverified
Structural Concept Learning via Graph Attention for Multi-Level Rearrangement Planning	Sep 5, 2023	Graph AttentionObject Rearrangement	—Unverified
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception	Aug 31, 2023	Activity RecognitionHuman Activity Recognition	—Unverified
Semi-Supervised Semantic Depth Estimation using Symbiotic Transformer and NearFarMix Augmentation	Aug 28, 2023	Autonomous VehiclesDepth Estimation	—Unverified
Synergizing Contrastive Learning and Optimal Transport for 3D Point Cloud Domain Adaptation	Aug 27, 2023	Contrastive LearningDomain Adaptation	—Unverified
End-to-end Autonomous Driving using Deep Learning: A Systematic Review	Aug 27, 2023	Autonomous Drivingobject-detection	—Unverified
SurGNN: Explainable visual scene understanding and assessment of surgical skill using graph neural networks	Aug 24, 2023	Scene Understanding	—Unverified
Novel-view Synthesis and Pose Estimation for Hand-Object Interaction from Sparse Views	Aug 22, 2023	NeRFNeural Rendering	—Unverified
Explore and Tell: Embodied Visual Captioning in 3D Environments	Aug 21, 2023	Image CaptioningNavigate	—Unverified
CASPNet++: Joint Multi-Agent Motion Prediction	Aug 15, 2023	Autonomous Drivingmotion prediction	—Unverified
Temporal DINO: A Self-supervised Video Strategy to Enhance Action Prediction	Aug 8, 2023	Activity RecognitionAutonomous Driving	—Unverified
Syn-Mediverse: A Multimodal Synthetic Dataset for Intelligent Scene Understanding of Healthcare Facilities	Aug 6, 2023	Depth EstimationInstance Segmentation	—Unverified
Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion for Improved Waypoint Prediction	Aug 4, 2023	Imitation LearningScene Understanding	CodeCode Available
Scene-aware Human Pose Generation using Transformer	Aug 4, 2023	Knowledge DistillationScene Understanding	—Unverified
Weakly Supervised 3D Instance Segmentation without Instance-level Annotations	Aug 3, 2023	3D Instance SegmentationInstance Segmentation	—Unverified
Interpretable End-to-End Driving Model for Implicit Scene Understanding	Aug 2, 2023	Graph Generationobject-detection	—Unverified
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding	Aug 1, 2023	3D geometry3D Open-Vocabulary Instance Segmentation	—Unverified
Gated Driver Attention Predictor	Aug 1, 2023	Driver Attention MonitoringPrediction	CodeCode Available
Enhancing image captioning with depth information using a Transformer-based framework	Jul 24, 2023	Image CaptioningImage Paragraph Captioning	—Unverified
Revisiting Distillation for Continual Learning on Visual Question Localized-Answering in Robotic Surgery	Jul 22, 2023	Continual LearningScene Understanding	CodeCode Available
Challenges for Monocular 6D Object Pose Estimation in Robotics	Jul 22, 2023	6D Pose Estimation using RGBObject	—Unverified
Improving Online Lane Graph Extraction by Object-Lane Clustering	Jul 20, 2023	3D Object DetectionAutonomous Driving	—Unverified
Mining Conditional Part Semantics with Occluded Extrapolation for Human-Object Interaction Detection	Jul 19, 2023	Human-Object Interaction DetectionObject	—Unverified
Towards A Unified Agent with Foundation Models	Jul 18, 2023	Efficient ExplorationReinforcement Learning (RL)	—Unverified
Human Action Recognition in Still Images Using ConViT	Jul 18, 2023	Action RecognitionAction Recognition In Still Images	—Unverified
DeepIPCv2: LiDAR-powered Robust Environmental Perception and Navigational Control for Autonomous Vehicle	Jul 13, 2023	Autonomous DrivingScene Understanding	CodeCode Available
Smart Infrastructure: A Research Junction	Jul 12, 2023	Scene UnderstandingSynthetic Data Generation	—Unverified
Test-Time Adaptation for Nighttime Color-Thermal Semantic Segmentation	Jul 10, 2023	Scene UnderstandingSemantic Segmentation	—Unverified
PSDR-Room: Single Photo to Scene using Differentiable Rendering	Jul 6, 2023	Scene Understanding	—Unverified
Object Recognition System on a Tactile Device for Visually Impaired	Jul 5, 2023	object-detectionObject Detection	—Unverified
Artifacts Mapping: Multi-Modal Semantic Mapping for Object Detection and 3D Localization	Jul 3, 2023	object-detectionObject Detection	—Unverified
Generalizing Surgical Instruments Segmentation to Unseen Domains with One-to-Many Synthesis	Jun 28, 2023	Scene Understanding	CodeCode Available
Physion++: Evaluating Physical Scene Understanding that Requires Online Inference of Different Physical Properties	Jun 27, 2023	FrictionScene Understanding	—Unverified
Style-transfer based Speech and Audio-visual Scene Understanding for Robot Action Sequence Acquisition from Videos	Jun 27, 2023	Multi-Task LearningScene Understanding	—Unverified
Semantic-aware Transmission for Robust Point Cloud Classification	Jun 23, 2023	ClassificationDecoder	—Unverified
Towards Unseen Triples: Effective Text-Image-joint Learning for Scene Graph Generation	Jun 23, 2023	Graph GenerationScene Graph Generation	—Unverified
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation	Jun 17, 2023	Decision MakingInstruction Following	—Unverified
DORSal: Diffusion for Object-centric Representations of Scenes et al	Jun 13, 2023	Neural RenderingObject	—Unverified
Neural Projection Mapping Using Reflectance Fields	Jun 11, 2023	Scene Understanding	—Unverified
SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal Scene Understanding	Jun 9, 2023	Scene Understanding	—Unverified
A Dynamic Feature Interaction Framework for Multi-task Visual Perception	Jun 8, 2023	Autonomous DrivingDepth Estimation	—Unverified
TopoMask: Instance-Mask-Based Formulation for the Road Topology Problem via Transformer-Based Architecture	Jun 8, 2023	3D Lane DetectionGraph Neural Network	—Unverified
Disaster Anomaly Detector via Deeper FCDDs for Explainable Initial Responses	Jun 5, 2023	Anomaly DetectionDisaster Response	—Unverified
Recyclable Semi-supervised Method Based on Multi-model Ensemble for Video Scene Parsing	Jun 5, 2023	Scene ParsingScene Understanding	—Unverified
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes	Jun 4, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Self-supervised Vision Transformers for 3D Pose Estimation of Novel Objects	May 31, 2023	3D Pose EstimationContrastive Learning	CodeCode Available
Dynamic Clustering Transformer Network for Point Cloud Segmentation	May 30, 2023	ClusteringDecoder	—Unverified
Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation	May 30, 2023	Graph GenerationImage Generation	CodeCode Available

Show:10 25 50

← PrevPage 21 of 35Next →

All datasets Semantic Scene Understanding Challenge (passive actuation & ground-truth localisation)ADE20K val Semantic Scene Understanding Challenge (active actuation & ground-truth localisation)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	ACRV Baseline	OMQ	0.44	—	Unverified
2	Team VGAI (TCS Research)	OMQ	0.37	—	Unverified
3	Demo_semantic_SLAM	OMQ	0.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CPN(ResNet-101)	Mean IoU	46.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	ACRV Baseline	OMQ	0.35	—	Unverified