Vision and Language Navigation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 223 papers

Title	Date	Tasks	Status
NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation	Dec 17, 2024	Few-Shot LearningVision and Language Navigation	—Unverified
RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation	Dec 11, 2024	3D ReconstructionDiversity	—Unverified
World-Consistent Data Generation for Vision-and-Language Navigation	Dec 9, 2024	Data AugmentationNavigate	—Unverified
NaVILA: Legged Robot Vision-Language-Action Model for Navigation	Dec 5, 2024	NavigateVision and Language Navigation	—Unverified
Hijacking Vision-and-Language Navigation Agents with Adversarial Environmental Attacks	Dec 3, 2024	Adversarial AttackVision and Language Navigation	—Unverified
Planning from Imagination: Episodic Simulation and Episodic Memory for Vision-and-Language Navigation	Nov 30, 2024	NavigateVision and Language Navigation	—Unverified
UnitedVLN: Generalizable Gaussian Splatting for Continuous Vision-Language Navigation	Nov 25, 2024	3DGSNavigate	—Unverified
Fine-Grained Alignment in Vision-and-Language Navigation through Bayesian Optimization	Nov 22, 2024	Bayesian OptimizationContrastive Learning	—Unverified
NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation	Nov 13, 2024	NavigateVision and Language Navigation	—Unverified
Aerial Vision-and-Language Navigation via Semantic-Topo-Metric Representation Guided LLM Reasoning	Oct 11, 2024	Language ModelingLanguage Modelling	—Unverified
Zero-Shot Vision-and-Language Navigation with Collision Mitigation in Continuous Environment	Oct 7, 2024	Large Language ModelVision and Language Navigation	—Unverified
Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs	Sep 27, 2024	Decision MakingNavigate	—Unverified
MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation	Sep 27, 2024	Knowledge DistillationVision and Language Navigation	—Unverified
Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations	Sep 9, 2024	Autonomous NavigationDiversity	—Unverified
Spatially-Aware Speaker for Vision-and-Language Navigation Instruction Generation	Sep 9, 2024	Vision and Language Navigation	CodeCode Available
Narrowing the Gap between Vision and Action in Navigation	Aug 19, 2024	DecoderSpatial Reasoning	CodeCode Available
Loc4Plan: Locating Before Planning for Outdoor Vision and Language Navigation	Aug 9, 2024	NavigatePosition	—Unverified
Into the Unknown: Generating Geospatial Descriptions for New Environments	Jun 28, 2024	Language ModellingLarge Language Model	CodeCode Available
Contrast Sets for Evaluating Language-Guided Robot Policies	Jun 19, 2024	Vision and Language Navigation	—Unverified
I2EDL: Interactive Instruction Error Detection and Localization	Jun 7, 2024	Vision and Language Navigation	—Unverified
Augmented Commonsense Knowledge for Remote Object Grounding	Jun 3, 2024	Decision MakingObject	CodeCode Available
Vision-and-Language Navigation Generative Pretrained Transformer	May 27, 2024	DecoderImitation Learning	—Unverified
MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains	May 17, 2024	DiversityNavigate	—Unverified
AIGeN: An Adversarial Approach for Instruction Generation in VLN	Apr 15, 2024	DecoderVision and Language Navigation	—Unverified
DELAN: Dual-Level Alignment for Vision-and-Language Navigation by Cross-Modal Contrastive Learning	Apr 2, 2024	Contrastive LearningDecision Making	CodeCode Available
IVLMap: Instance-Aware Visual Language Grounding for Consumer Robot Navigation	Mar 28, 2024	AttributeLanguage Modelling	—Unverified
Scaling Vision-and-Language Navigation With Offline RL	Mar 27, 2024	Offline RLVision and Language Navigation	—Unverified
OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation	Mar 26, 2024	Vision and Language Navigation	—Unverified
Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation	Mar 23, 2024	NavigateObject	—Unverified
Continual Vision-and-Language Navigation	Mar 22, 2024	Continual LearningNavigate	—Unverified
Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation	Mar 18, 2024	Common Sense ReasoningEfficient Exploration	CodeCode Available
Mind the Error! Detection and Localization of Instruction Errors in Vision-and-Language Navigation	Mar 15, 2024	NavigateVision and Language Navigation	—Unverified
Towards Deviation-Robust Agent Navigation via Perturbation-Aware Contrastive Learning	Mar 9, 2024	Contrastive LearningNavigate	—Unverified
Causality-based Cross-Modal Representation Learning for Vision-and-Language Navigation	Mar 6, 2024	Representation LearningVision and Language Navigation	—Unverified
NaVid: Video-based VLM Plans the Next Step for Vision-and-Language Navigation	Feb 24, 2024	Decision MakingInstruction Following	—Unverified
VLN-Video: Utilizing Driving Videos for Outdoor Vision-and-Language Navigation	Feb 5, 2024	Language ModelingLanguage Modelling	—Unverified
NavHint: Vision and Language Navigation Agent with a Hint Generator	Feb 4, 2024	Vision and Language Navigation	CodeCode Available
MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation	Jan 14, 2024	Decision MakingVision and Language Navigation	—Unverified
Which way is `right'?: Uncovering limitations of Vision-and-Language Navigation model	Nov 30, 2023	Vision and Language Navigation	—Unverified
DAP: Domain-aware Prompt Learning for Vision-and-Language Navigation	Nov 29, 2023	cross-modal alignmentNavigate	—Unverified
Does VLN Pretraining Work with Nonsensical or Irrelevant Instructions?	Nov 28, 2023	Data AugmentationTranslation	—Unverified
Vision and Language Navigation in the Real World via Online Visual Language Mapping	Oct 16, 2023	Vision and Language Navigation	—Unverified
LangNav: Language as a Perceptual Representation for Navigation	Oct 11, 2023	Image CaptioningLanguage Modeling	—Unverified
Evaluating Explanation Methods for Vision-and-Language Navigation	Oct 10, 2023	Decision MakingNavigate	—Unverified
Prompt-based Context- and Domain-aware Pretraining for Vision and Language Navigation	Sep 7, 2023	Contrastive Learningcross-modal alignment	—Unverified
VLN-PETL: Parameter-Efficient Transfer Learning for Vision-and-Language Navigation	Aug 20, 2023	Transfer LearningVision and Language Navigation	CodeCode Available
A^2Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models	Aug 15, 2023	NavigateRobot Navigation	—Unverified
Mind the Gap: Improving Success Rate of Vision-and-Language Navigation by Revisiting Oracle Success Routes	Aug 7, 2023	NavigateVision and Language Navigation	—Unverified
Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for Navigation Instruction Generation	Jul 25, 2023	Vision and Language Navigation	CodeCode Available
Behavioral Analysis of Vision-and-Language Navigation Agents	Jul 20, 2023	Vision and Language Navigation	CodeCode Available

Show:10 25 50

← PrevPage 3 of 5Next →

All datasets VLN Challenge Touchdown Dataset RxR map2seq Room2Room robo-vln

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	success	0.86	—	Unverified
2	Lily	success	0.79	—	Unverified
3	Airbert	success	0.78	—	Unverified
4	explore@40 beam-search	success	0.74	—	Unverified
5	Global Normalization	success	0.74	—	Unverified
6	VLN-Bert	success	0.73	—	Unverified
7	BEVBert	success	0.73	—	Unverified
8	GMap	success	0.73	—	Unverified
9	Gloabl Normalization pre-explore	success	0.73	—	Unverified
10	FOAM-Beam Search	success	0.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	40.2	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	29.1	—	Unverified
3	ORAR	Task Completion (TC)	24.2	—	Unverified
4	ARC + L2STOP	Task Completion (TC)	16.68	—	Unverified
5	VLN Transformer +M-50 +style	Task Completion (TC)	16.2	—	Unverified
6	VLN Transformer	Task Completion (TC)	14.9	—	Unverified
7	ARC	Task Completion (TC)	14.13	—	Unverified
8	Retouch-RConcat	Task Completion (TC)	12.8	—	Unverified
9	Gated Attention (GA)	Task Completion (TC)	11.9	—	Unverified
10	RConcat	Task Completion (TC)	11.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MARVAL	ndtw	66.76	—	Unverified
2	EnvEdit-PT	ndtw	64.61	—	Unverified
3	HAMT	ndtw	59.94	—	Unverified
4	CLEAR-CLIP	ndtw	53.69	—	Unverified
5	Monolingual Baseline	ndtw	41.05	—	Unverified
6	Multilingual Baseline	ndtw	36.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	52.44	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	46.7	—	Unverified
3	ORAR	Task Completion (TC)	45.1	—	Unverified
4	Gated Attention	Task Completion (TC)	17	—	Unverified
5	Rconcat	Task Completion (TC)	14.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	R2R+EnvDrop	spl	0.61	—	Unverified
2	RCM + SIL	spl	0.59	—	Unverified
3	Tactical Rewind - short	spl	0.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Cross-Modal Agent	SPL (Sucess Weighted by Path Length)	0.4	—	Unverified