Visual Navigation

Visual Navigation is the problem of navigating an agent, e.g. a mobile robot, in an environment using camera input only. The agent is given a target image (an image it will see from the target position), and its goal is to move from its current position to the target by applying a sequence of actions, based on the camera observations only.

Source: Vision-based Navigation Using Deep Reinforcement Learning

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 316 papers

Title	Date	Tasks	Status	Hype	Score
XFeat: Accelerated Features for Lightweight Image Matching	Apr 30, 2024	CPUKeypoint detection and image matching	CodeCode Available	5	5
Navigation World Models	Dec 4, 2024	Robot NavigationVideo Generation	CodeCode Available	4	5
Visual Planning: Let's Think Only with Images	May 16, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	3	5
ViNT: A Foundation Model for Visual Navigation	Jun 26, 2023	modelVisual Navigation	CodeCode Available	3	5
CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos	Nov 26, 2024	Common Sense ReasoningImitation Learning	CodeCode Available	3	5
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences	Dec 2, 2024	Embodied Question AnsweringQuestion Answering	CodeCode Available	2	5
NaviDiffusor: Cost-Guided Diffusion Model for Visual Navigation	Apr 14, 2025	Visual Navigation	CodeCode Available	2	5
GaussNav: Gaussian Splatting for Visual Navigation	Mar 18, 2024	3DGSVisual Navigation	CodeCode Available	2	5
Scaling Data Generation in Vision-and-Language Navigation	Jul 28, 2023	Imitation LearningVision and Language Navigation	CodeCode Available	2	5
SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning	Jun 16, 2022	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	2	5
BEVBert: Multimodal Map Pre-training for Language-guided Navigation	Dec 8, 2022	Vision and Language NavigationVisual Navigation	CodeCode Available	2	5
Prior Does Matter: Visual Navigation via Denoising Diffusion Bridge Models	Apr 14, 2025	Action GenerationDenoising	CodeCode Available	2	5
Towards Learning a Generalist Model for Embodied Navigation	Dec 4, 2023	3D Question Answering (3D-QA)Embodied Question Answering	CodeCode Available	2	5
POPGym: Benchmarking Partially Observable Reinforcement Learning	Mar 3, 2023	BenchmarkingGPU	CodeCode Available	2	5
NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models	May 26, 2023	Instruction FollowingVision and Language Navigation	CodeCode Available	2	5
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation	Feb 23, 2022	Efficient ExplorationNavigate	CodeCode Available	2	5
Vision-and-Language Navigation via Causal Learning	Apr 16, 2024	Causal InferenceContrastive Learning	CodeCode Available	2	5
GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation	Apr 9, 2024	Go to AnyThingNavigate	CodeCode Available	2	5
Sim2Real Predictivity: Does Evaluation in Simulation Predict Real-World Performance?	Dec 13, 2019	PointGoal NavigationVisual Navigation	CodeCode Available	1	5
Last-Mile Embodied Visual Navigation	Nov 21, 2022	Visual Navigation	CodeCode Available	1	5
Learning Exploration Policies for Navigation	Mar 5, 2019	Efficient ExplorationGeneral Reinforcement Learning	CodeCode Available	1	5
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation	Mar 22, 2022	Decision MakingLanguage Modeling	CodeCode Available	1	5
HabiCrowd: A High Performance Simulator for Crowd-Aware Visual Navigation	Jun 20, 2023	Collision AvoidanceComputational Efficiency	CodeCode Available	1	5
An Open Source and Open Hardware Deep Learning-powered Visual Navigation Engine for Autonomous Nano-UAVs	May 10, 2019	Autonomous NavigationVisual Navigation	CodeCode Available	1	5
Hierarchical and Partially Observable Goal-driven Policy Learning with Goals Relational Graph	Mar 1, 2021	Hierarchical Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1	5
A Pose-only Solution to Visual Reconstruction and Navigation	Mar 2, 2021	3D Scene ReconstructionComputational Efficiency	CodeCode Available	1	5
Language-enhanced RNR-Map: Querying Renderable Neural Radiance Field maps with natural language	Aug 17, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
A Recurrent Vision-and-Language BERT for Navigation	Nov 26, 2020	Decision MakingDecoder	CodeCode Available	1	5
Learning from Unlabeled 3D Environments for Vision-and-Language Navigation	Aug 24, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
Benchmarking Visual Localization for Autonomous Navigation	Mar 24, 2022	Autonomous NavigationBenchmarking	CodeCode Available	1	5
Offline Reinforcement Learning for Visual Navigation	Dec 16, 2022	NavigateOffline RL	CodeCode Available	1	5
Catch Me If You Hear Me: Audio-Visual Navigation in Complex Unmapped Environments with Moving Sounds	Nov 29, 2021	NavigateVisual Navigation	CodeCode Available	1	5
Goal-Aware Cross-Entropy for Multi-Target Reinforcement Learning	Oct 25, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	1	5
Multi3DRefer: Grounding Text Description to Multiple 3D Objects	Sep 11, 2023	3D visual groundingContrastive Learning	CodeCode Available	1	5
CityLearn: Diverse Real-World Environments for Sample-Efficient Navigation Policy Learning	Oct 10, 2019	Autonomous DrivingDecision Making	CodeCode Available	1	5
End-to-End (Instance)-Image Goal Navigation through Correspondence as an Emergent Phenomenon	Sep 28, 2023	Pose EstimationVisual Navigation	CodeCode Available	1	5
MVP: Unified Motion and Visual Self-Supervised Learning for Large-Scale Robotic Navigation	Mar 2, 2020	Autonomous DrivingAutonomous Navigation	CodeCode Available	1	5
EndoMamba: An Efficient Foundation Model for Endoscopic Videos via Hierarchical Pre-training	Feb 26, 2025	MambaRepresentation Learning	CodeCode Available	1	5
Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation	Dec 9, 2024	Object LocalizationVision and Language Navigation	CodeCode Available	1	5
Learning to Learn How to Learn: Self-Adaptive Visual Navigation Using Meta-Learning	Dec 3, 2018	Meta-LearningMeta Reinforcement Learning	CodeCode Available	1	5
Decoupling Exploration and Exploitation for Meta-Reinforcement Learning without Sacrifices	Aug 6, 2020	Meta Reinforcement Learningreinforcement-learning	CodeCode Available	1	5
Extending Maps with Semantic and Contextual Object Information for Robot Navigation: a Learning-Based Framework using Visual and Depth Cues	Mar 13, 2020	ObjectRobot Navigation	CodeCode Available	1	5
CaMP: Causal Multi-policy Planning for Interactive Navigation in Multi-room Scenes	Sep 21, 2023	counterfactualVisual Navigation	CodeCode Available	1	5
CaMP: Causal Multi-policy Planning for Interactive Navigation in Multi-room Scenes	Sep 21, 2023	counterfactualVisual Navigation	CodeCode Available	1	5
A Visual Navigation Perspective for Category-Level Object Pose Estimation	Mar 25, 2022	Imitation LearningPose Estimation	CodeCode Available	1	5
An Interactive Navigation Method with Effect-oriented Affordance	Jan 1, 2024	NavigateVisual Navigation	CodeCode Available	1	5
A 64mW DNN-based Visual Navigation Engine for Autonomous Nano-Drones	May 4, 2018	Autonomous NavigationVisual Navigation	CodeCode Available	1	5
Cognitive Mapping and Planning for Visual Navigation	Feb 13, 2017	Visual Navigation	CodeCode Available	1	5
Collaborative Visual Navigation	Jul 2, 2021	Multi-agent Reinforcement LearningNavigate	CodeCode Available	1	5
Discriminative Particle Filter Reinforcement Learning for Complex Partial Observations	Feb 23, 2020	Atari GamesDecision Making	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 7Next →

All datasets Cooperative Vision-and-Dialogue Navigation R2R SOON Test AI2-THOR Dmlab-30 Help, Anna! (HANNA)

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	NaviLLM	dist_to_end_reduction	7.9	—	Unverified
2	VLN-PETL	dist_to_end_reduction	6.13	—	Unverified
3	early to bed	dist_to_end_reduction	6.03	—	Unverified
4	HAMT	dist_to_end_reduction	5.58	—	Unverified
5	s-agent (NDH-Full)	dist_to_end_reduction	5.27	—	Unverified
6	BabyWalk (r2r-pretrain)	dist_to_end_reduction	4.46	—	Unverified
7	Environment-agnostic Multitask Learning	dist_to_end_reduction	3.91	—	Unverified
8	BabyWalk	dist_to_end_reduction	3.65	—	Unverified
9	Test2-NDH	dist_to_end_reduction	3.44	—	Unverified
10	SCoA	dist_to_end_reduction	3.37	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SUSA	spl	0.64	—	Unverified
2	Meta-Explore	spl	0.61	—	Unverified
3	NaviLLM	spl	0.6	—	Unverified
4	BEV-BERT	spl	0.6	—	Unverified
5	HOP	spl	0.59	—	Unverified
6	DUET	spl	0.58	—	Unverified
7	VLN-PETL	spl	0.58	—	Unverified
8	VLN-BERT	spl	0.57	—	Unverified
9	Prevalent	spl	0.51	—	Unverified
10	RCM+SIL(no early exploration)	spl	0.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AutoVLN	Nav-SPL	27.83	—	Unverified
2	NaviLLM	Nav-SPL	26.26	—	Unverified
3	Meta-Explore	Nav-SPL	25.8	—	Unverified
4	SUSA	Nav-SPL	25.47	—	Unverified
5	DUET	Nav-SPL	21.42	—	Unverified
6	GBE	Nav-SPL	13.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MVV-IN	SPL (All)	17.27	—	Unverified
2	SAVN	SPL (All)	16.15	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PopArt-IMPALA	Medium Human-Normalized Score	72.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Prevalent	spl	28.72	—	Unverified