Vision and Language Navigation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 223 papers

Title	Date	Tasks	Status	Hype	Score
Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language Navigation	Mar 5, 2022	Imitation LearningVision and Language Navigation	CodeCode Available	1	5
Navigating Beyond Instructions: Vision-and-Language Navigation in Obstructed Environments	Jul 31, 2024	graph constructionNavigate	CodeCode Available	1	5
HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation	Mar 22, 2022	Decision MakingLanguage Modeling	CodeCode Available	1	5
CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory	May 8, 2025	Large Language ModelNavigate	CodeCode Available	1	5
How Much Can CLIP Benefit Vision-and-Language Tasks?	Jul 13, 2021	Question AnsweringVision and Language Navigation	CodeCode Available	1	5
Agent Journey Beyond RGB: Unveiling Hybrid Semantic-Spatial Environmental Representations for Vision-and-Language Navigation	Dec 9, 2024	Object LocalizationVision and Language Navigation	CodeCode Available	1	5
History Aware Multimodal Transformer for Vision-and-Language Navigation	Oct 25, 2021	Decision MakingNavigate	CodeCode Available	1	5
Improving Vision-and-Language Navigation with Image-Text Pairs from the Web	Apr 30, 2020	Vision and Language Navigation	CodeCode Available	1	5
Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation	Nov 10, 2021	DecoderNavigate	CodeCode Available	1	5
Diagnosing the Environment Bias in Vision-and-Language Navigation	May 6, 2020	Vision and Language Navigation	CodeCode Available	1	5
Learning Vision-and-Language Navigation from YouTube Videos	Jul 22, 2023	NavigateVision and Language Navigation	CodeCode Available	1	5
MAGIC: Meta-Ability Guided Interactive Chain-of-Distillation for Effective-and-Efficient Vision-and-Language Navigation	Jun 25, 2024	Knowledge DistillationTest unseen	CodeCode Available	1	5
Cross-modal Map Learning for Vision and Language Navigation	Mar 10, 2022	Vision and Language Navigation	CodeCode Available	1	5
GridMM: Grid Memory Map for Vision-and-Language Navigation	Jul 24, 2023	NavigateVision and Language Navigation	CodeCode Available	1	5
Cross from Left to Right Brain: Adaptive Text Dreamer for Vision-and-Language Navigation	May 27, 2025	Large Language ModelLogical Reasoning	CodeCode Available	1	5
Learning from Unlabeled 3D Environments for Vision-and-Language Navigation	Aug 24, 2022	Language ModelingLanguage Modelling	CodeCode Available	1	5
g3D-LF: Generalizable 3D-Language Feature Fields for Embodied Tasks	Nov 26, 2024	Contrastive LearningQuestion Answering	CodeCode Available	1	5
March in Chat: Interactive Prompting for Remote Embodied Referring Expression	Aug 20, 2023	Referring ExpressionVision and Language Navigation	CodeCode Available	1	5
Learning Navigational Visual Representations with Semantic Map Supervision	Jul 23, 2023	Representation LearningSelf-Supervised Learning	CodeCode Available	1	5
FedVLN: Privacy-preserving Federated Vision-and-Language Navigation	Mar 28, 2022	Privacy PreservingVision and Language Navigation	CodeCode Available	1	5
BabyWalk: Going Farther in Vision-and-Language Navigation by Taking Baby Steps	May 10, 2020	Imitation LearningNavigate	CodeCode Available	1	5
A Recurrent Vision-and-Language BERT for Navigation	Nov 26, 2020	Decision MakingDecoder	CodeCode Available	1	5
The Road to Know-Where: An Object-and-Room Informed Sequential BERT for Indoor Vision-Language Navigation	Apr 9, 2021	Vision and Language NavigationVision-Language Navigation	CodeCode Available	1	5
Beyond the Nav-Graph: Vision-and-Language Navigation in Continuous Environments	Apr 6, 2020	Vision and Language Navigation	CodeCode Available	1	5
ESceme: Vision-and-Language Navigation with Episodic Scene Memory	Mar 2, 2023	Vision and Language Navigation	CodeCode Available	1	5

Show:10 25 50

← PrevPage 2 of 9Next →

All datasets VLN Challenge Touchdown Dataset RxR map2seq Room2Room robo-vln

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	success	0.86	—	Unverified
2	Lily	success	0.79	—	Unverified
3	Airbert	success	0.78	—	Unverified
4	explore@40 beam-search	success	0.74	—	Unverified
5	Global Normalization	success	0.74	—	Unverified
6	VLN-Bert	success	0.73	—	Unverified
7	BEVBert	success	0.73	—	Unverified
8	GMap	success	0.73	—	Unverified
9	Gloabl Normalization pre-explore	success	0.73	—	Unverified
10	FOAM-Beam Search	success	0.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	40.2	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	29.1	—	Unverified
3	ORAR	Task Completion (TC)	24.2	—	Unverified
4	ARC + L2STOP	Task Completion (TC)	16.68	—	Unverified
5	VLN Transformer +M-50 +style	Task Completion (TC)	16.2	—	Unverified
6	VLN Transformer	Task Completion (TC)	14.9	—	Unverified
7	ARC	Task Completion (TC)	14.13	—	Unverified
8	Retouch-RConcat	Task Completion (TC)	12.8	—	Unverified
9	Gated Attention (GA)	Task Completion (TC)	11.9	—	Unverified
10	RConcat	Task Completion (TC)	11.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MARVAL	ndtw	66.76	—	Unverified
2	EnvEdit-PT	ndtw	64.61	—	Unverified
3	HAMT	ndtw	59.94	—	Unverified
4	CLEAR-CLIP	ndtw	53.69	—	Unverified
5	Monolingual Baseline	ndtw	41.05	—	Unverified
6	Multilingual Baseline	ndtw	36.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	52.44	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	46.7	—	Unverified
3	ORAR	Task Completion (TC)	45.1	—	Unverified
4	Gated Attention	Task Completion (TC)	17	—	Unverified
5	Rconcat	Task Completion (TC)	14.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	R2R+EnvDrop	spl	0.61	—	Unverified
2	RCM + SIL	spl	0.59	—	Unverified
3	Tactical Rewind - short	spl	0.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Cross-Modal Agent	SPL (Sucess Weighted by Path Length)	0.4	—	Unverified