Vision and Language Navigation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 223 papers

Title	Date	Tasks	Status
Observation-Graph Interaction and Key-Detail Guidance for Vision and Language Navigation	Mar 14, 2025	cross-modal alignmentNavigate	—Unverified
On the Evaluation of Vision-and-Language Navigation Instructions	Jan 26, 2021	Vision and Language Navigation	—Unverified
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs	Sep 27, 2024	Decision MakingNavigate	—Unverified
OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation	Mar 26, 2024	Vision and Language Navigation	—Unverified
PanoGen++: Domain-Adapted Text-Guided Panoramic Environment Generation for Vision-and-Language Navigation	Mar 13, 2025	Image InpaintingImage Outpainting	—Unverified
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation	May 30, 2023	Image OutpaintingLanguage Modelling	—Unverified
PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation	May 19, 2023	Data AugmentationVision and Language Navigation	—Unverified
Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation	Nov 30, 2024	NavigateVision and Language Navigation	—Unverified
Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation	Sep 7, 2023	Contrastive Learningcross-modal alignment	—Unverified
Rethinking the Embodied Gap in Vision-and-Language Navigation: A Holistic Study of Physical and Visual Disparities	Jul 17, 2025	Large Language ModelVision and Language Navigation	—Unverified
Rethinking the Spatial Route Prior in Vision-and-Language Navigation	Oct 12, 2021	NavigateVision and Language Navigation	—Unverified
Retouchdown: Releasing Touchdown on StreetLearn as a Public Resource for Language Grounding Tasks in Street View	Nov 1, 2020	Vision and Language Navigation	—Unverified
RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation	Dec 11, 2024	3D ReconstructionDiversity	—Unverified
Scaling Vision-and-Language Navigation With Offline RL	Mar 27, 2024	Offline RLVision and Language Navigation	—Unverified
Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations	Sep 9, 2024	Autonomous NavigationDiversity	—Unverified
Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation	Jan 26, 2022	Representation LearningTest unseen	—Unverified
Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments	Apr 20, 2022	NavigateVision and Language Navigation	—Unverified
SmartWay: Enhanced Waypoint Prediction and Backtracking for Zero-Shot Vision-and-Language Navigation	Mar 13, 2025	Language ModelingLanguage Modelling	—Unverified
SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language Navigation	Oct 27, 2021	ObjectScene Classification	—Unverified
Soft Expert Reward Learning for Vision-and-Language Navigation	Jul 21, 2020	Reinforcement Learning (RL)Vision and Language Navigation	—Unverified
Stay on the Path: Instruction Fidelity in Vision-and-Language Navigation	May 29, 2019	Instruction FollowingVision and Language Navigation	—Unverified
ST-Booster: An Iterative SpatioTemporal Perception Booster for Vision-and-Language Navigation in Continuous Environments	Apr 14, 2025	NavigateVision and Language Navigation	—Unverified
Structure-Encoding Auxiliary Tasks for Improved Visual Representation in Vision-and-Language Navigation	Nov 20, 2022	Test unseenVision and Language Navigation	—Unverified
Take the Scenic Route: Improving Generalization in Vision-and-Language Navigation	Mar 31, 2020	Vision and Language Navigation	—Unverified
Talk2Nav: Long-Range Vision-and-Language Navigation with Dual Attention and Spatial Memory	Oct 4, 2019	Autonomous DrivingVision and Language Navigation	—Unverified
Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation	Mar 23, 2024	NavigateObject	—Unverified
Topological Planning with Transformers for Vision-and-Language Navigation	Dec 9, 2020	Vision and Language Navigation	—Unverified
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning	Mar 9, 2024	Contrastive LearningNavigate	—Unverified
Transferable Representation Learning in Vision-and-Language Navigation	Aug 9, 2019	Representation LearningVision and Language Navigation	—Unverified
TRAVEL: Training-Free Retrieval and Alignment for Vision-and-Language Navigation	Feb 11, 2025	RetrievalVision and Language Navigation	—Unverified
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation	Nov 25, 2024	3DGSNavigate	—Unverified
Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions	Nov 16, 2021	Vision and Language Navigation	—Unverified
Vision-and-Language Navigation Generative Pretrained Transformer	May 27, 2024	DecoderImitation Learning	—Unverified
Vision and Language Navigation in the Real World via Online Visual Language Mapping	Oct 16, 2023	Vision and Language Navigation	—Unverified
Visual Perception Generalization for Vision-and-Language Navigation via Meta-Learning	Dec 10, 2020	Meta-LearningNavigate	—Unverified
VLN BERT: A Recurrent Vision-and-Language BERT for Navigation	Jun 19, 2021	Decision MakingDecoder	—Unverified
VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation	Feb 5, 2024	Language ModelingLanguage Modelling	—Unverified
Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model	Nov 30, 2023	Vision and Language Navigation	—Unverified
World-Consistent Data Generation for Vision-and-Language Navigation	Dec 9, 2024	Data AugmentationNavigate	—Unverified
Are You Looking? Grounding to Multiple Modalities in Vision-and-Language Navigation	Jun 2, 2019	Vision and Language Navigation	—Unverified
The Regretful Agent: Heuristic-Aided Navigation through Progress Estimation	Mar 5, 2019	Decision MakingVision and Language Navigation	CodeCode Available
The Regretful Navigation Agent for Vision-and-Language Navigation	Mar 5, 2019	Decision MakingVision and Language Navigation	CodeCode Available
Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation	Mar 18, 2024	Common Sense ReasoningEfficient Exploration	CodeCode Available
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations	Jul 5, 2022	NavigateRepresentation Learning	CodeCode Available
REVERIE: Remote Embodied Visual Referring Expression in Real Indoor Environments	Apr 23, 2019	Referring ExpressionVision and Language Navigation	CodeCode Available
Ground then Navigate: Language-guided Navigation in Dynamic Scenes	Sep 24, 2022	Autonomous DrivingNavigate	CodeCode Available
Robust Navigation with Language Pretraining and Stochastic Sampling	Sep 5, 2019	Vision and Language Navigation	CodeCode Available
Multimodal Attention Networks for Low-Level Vision-and-Language Navigation	Nov 27, 2019	Vision and Language Navigation	CodeCode Available
VISITRON: Visual Semantics-Aligned Interactively Trained Object-Navigator	May 25, 2021	Binary ClassificationImitation Learning	CodeCode Available
NavHint: Vision and Language Navigation Agent with a Hint Generator	Feb 4, 2024	Vision and Language Navigation	CodeCode Available

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets VLN Challenge Touchdown Dataset RxR map2seq Room2Room robo-vln

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	success	0.86	—	Unverified
2	Lily	success	0.79	—	Unverified
3	Airbert	success	0.78	—	Unverified
4	explore@40 beam-search	success	0.74	—	Unverified
5	Global Normalization	success	0.74	—	Unverified
6	VLN-Bert	success	0.73	—	Unverified
7	BEVBert	success	0.73	—	Unverified
8	GMap	success	0.73	—	Unverified
9	Gloabl Normalization pre-explore	success	0.73	—	Unverified
10	FOAM-Beam Search	success	0.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	40.2	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	29.1	—	Unverified
3	ORAR	Task Completion (TC)	24.2	—	Unverified
4	ARC + L2STOP	Task Completion (TC)	16.68	—	Unverified
5	VLN Transformer +M-50 +style	Task Completion (TC)	16.2	—	Unverified
6	VLN Transformer	Task Completion (TC)	14.9	—	Unverified
7	ARC	Task Completion (TC)	14.13	—	Unverified
8	Retouch-RConcat	Task Completion (TC)	12.8	—	Unverified
9	Gated Attention (GA)	Task Completion (TC)	11.9	—	Unverified
10	RConcat	Task Completion (TC)	11.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MARVAL	ndtw	66.76	—	Unverified
2	EnvEdit-PT	ndtw	64.61	—	Unverified
3	HAMT	ndtw	59.94	—	Unverified
4	CLEAR-CLIP	ndtw	53.69	—	Unverified
5	Monolingual Baseline	ndtw	41.05	—	Unverified
6	Multilingual Baseline	ndtw	36.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	52.44	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	46.7	—	Unverified
3	ORAR	Task Completion (TC)	45.1	—	Unverified
4	Gated Attention	Task Completion (TC)	17	—	Unverified
5	Rconcat	Task Completion (TC)	14.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	R2R+EnvDrop	spl	0.61	—	Unverified
2	RCM + SIL	spl	0.59	—	Unverified
3	Tactical Rewind - short	spl	0.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Cross-Modal Agent	SPL (Sucess Weighted by Path Length)	0.4	—	Unverified