Vision and Language Navigation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 223 papers

Title	Date	Tasks	Status
CorNav: Autonomous Agent with Self-Corrected Planning for Zero-Shot Vision-and-Language Navigation	Jun 17, 2023	Decision MakingInstruction Following	—Unverified
PanoGen: Text-Conditioned Panoramic Environment Generation for Vision-and-Language Navigation	May 30, 2023	Image OutpaintingLanguage Modelling	—Unverified
GeoVLN: Learning Geometry-Enhanced Visual Representation with Slot Attention for Vision-and-Language Navigation	May 26, 2023	Vision and Language Navigation	CodeCode Available
Masked Path Modeling for Vision-and-Language Navigation	May 23, 2023	Action GenerationNavigate	—Unverified
PASTS: Progress-Aware Spatio-Temporal Transformer Speaker For Vision-and-Language Navigation	May 19, 2023	Data AugmentationVision and Language Navigation	—Unverified
Improving Vision-and-Language Navigation by Generating Future-View Image Semantics	Apr 11, 2023	Image GenerationNavigate	—Unverified
HOP+: History-enhanced and Order-aware Pre-training for Vision-and-Language Navigation	Mar 20, 2023	Decision MakingLanguage Modeling	—Unverified
Meta-Explore: Exploratory Hierarchical Vision-and-Language Navigation Using Scene Object Spectrum Grounding	Mar 7, 2023	Vision and Language NavigationVisual Navigation	—Unverified
MLANet: Multi-Level Attention Network with Sub-instruction for Continuous Vision-and-Language Navigation	Mar 2, 2023	NavigateVision and Language Navigation	CodeCode Available
Graph based Environment Representation for Vision-and-Language Navigation in Continuous Environments	Jan 11, 2023	Objectobject-detection	—Unverified
CLIP-Nav: Using CLIP for Zero-Shot Vision-and-Language Navigation	Nov 30, 2022	DiversityInstruction Following	—Unverified
Navigation as Attackers Wish? Towards Building Robust Embodied Agents under Federated Learning	Nov 27, 2022	Federated LearningNavigate	—Unverified
Structure-Encoding Auxiliary Tasks for Improved Visual Representation in Vision-and-Language Navigation	Nov 20, 2022	Test unseenVision and Language Navigation	—Unverified
ULN: Towards Underspecified Vision-and-Language Navigation	Oct 18, 2022	Vision and Language Navigation	CodeCode Available
Iterative Vision-and-Language Navigation	Oct 6, 2022	Instruction FollowingVision and Language Navigation	—Unverified
A New Path: Scaling Vision-and-Language Navigation with Synthetic Instructions and Imitation Learning	Oct 6, 2022	Imitation LearningInstruction Following	—Unverified
LOViS: Learning Orientation and Visual Signals for Vision and Language Navigation	Sep 26, 2022	Spatial ReasoningVision and Language Navigation	CodeCode Available
Ground then Navigate: Language-guided Navigation in Dynamic Scenes	Sep 24, 2022	Autonomous DrivingNavigate	CodeCode Available
Anticipating the Unseen Discrepancy for Vision and Language Navigation	Sep 10, 2022	Data AugmentationDecision Making	—Unverified
A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues	Jul 24, 2022	cross-modal alignmentTrajectory Planning	CodeCode Available
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations	Jul 5, 2022	NavigateRepresentation Learning	CodeCode Available
Local Slot Attention for Vision-and-Language Navigation	Jun 17, 2022	NavigateVision and Language Navigation	CodeCode Available
FOAM: A Follower-aware Speaker Model For Vision-and-Language Navigation	Jun 9, 2022	Vision and Language Navigation	CodeCode Available
Explicit Object Relation Alignment for Vision and Language Navigation	May 1, 2022	ObjectRelation	CodeCode Available
Sim-2-Sim Transfer for Vision-and-Language Navigation in Continuous Environments	Apr 20, 2022	NavigateVision and Language Navigation	—Unverified
Self-supervised 3D Semantic Representation Learning for Vision-and-Language Navigation	Jan 26, 2022	Representation LearningTest unseen	—Unverified
Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method	Jan 16, 2022	Vision and Language Navigation	—Unverified
Diagnosing Vision-and-Language Navigation: What Really Matters	Dec 17, 2021	DiagnosticObject	—Unverified
Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method	Nov 28, 2021	Vision and Language Navigation	—Unverified
Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions	Nov 16, 2021	Vision and Language Navigation	—Unverified
Explicit Object Relation Alignment for Vision and Language Navigation	Nov 16, 2021	Instruction FollowingRelation	—Unverified
Curriculum Learning for Vision-and-Language Navigation	Nov 14, 2021	Vision and Language Navigation	—Unverified
SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language Navigation	Oct 27, 2021	ObjectScene Classification	—Unverified
Rethinking the Spatial Route Prior in Vision-and-Language Navigation	Oct 12, 2021	NavigateVision and Language Navigation	—Unverified
Language-Aligned Waypoint (LAW) Supervision for Vision-and-Language Navigation in Continuous Environments	Sep 30, 2021	Vision and Language Navigation	—Unverified
VLN BERT: A Recurrent Vision-and-Language BERT for Navigation	Jun 19, 2021	Decision MakingDecoder	—Unverified
VISITRON: Visual Semantics-Aligned Interactively Trained Object-Navigator	May 25, 2021	Binary ClassificationImitation Learning	CodeCode Available
Diagnosing Vision-and-Language Navigation: What Really Matters	Mar 30, 2021	DiagnosticObject	CodeCode Available
CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation	Mar 1, 2021	TranslationVision and Language Navigation	—Unverified
On the Evaluation of Vision-and-Language Navigation Instructions	Jan 26, 2021	Vision and Language Navigation	—Unverified
Visual Perception Generalization for Vision-and-Language Navigation via Meta-Learning	Dec 10, 2020	Meta-LearningNavigate	—Unverified
Topological Planning with Transformers for Vision-and-Language Navigation	Dec 9, 2020	Vision and Language Navigation	—Unverified
Counterfactual Vision-and-Language Navigation: Unravelling the Unseen	Dec 1, 2020	counterfactualEmbodied Question Answering	—Unverified
Language-guided Navigation via Cross-Modal Grounding and Alternate Adversarial Learning	Nov 22, 2020	Imitation LearningNavigate	—Unverified
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments	Nov 15, 2020	Referring ExpressionReferring Expression Comprehension	—Unverified
Retouchdown: Releasing Touchdown on StreetLearn as a Public Resource for Language Grounding Tasks in Street View	Nov 1, 2020	Vision and Language Navigation	—Unverified
Learning to Stop: A Simple yet Effective Approach to Urban Vision-Language Navigation	Sep 28, 2020	NavigateVision and Language Navigation	—Unverified
Generative Language-Grounded Policy in Vision-and-Language Navigation with Bayes' Rule	Sep 16, 2020	Language ModelingLanguage Modelling	—Unverified
Counterfactual Vision-and-Language Navigation via Adversarial Path Sampler	Aug 1, 2020	counterfactualCounterfactual Reasoning	—Unverified
Object-and-Action Aware Model for Visual Language Navigation	Jul 29, 2020	ObjectVision and Language Navigation	—Unverified

Show:10 25 50

← PrevPage 4 of 5Next →

All datasets VLN Challenge Touchdown Dataset RxR map2seq Room2Room robo-vln

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	human	success	0.86	—	Unverified
2	Lily	success	0.79	—	Unverified
3	Airbert	success	0.78	—	Unverified
4	explore@40 beam-search	success	0.74	—	Unverified
5	Global Normalization	success	0.74	—	Unverified
6	VLN-Bert	success	0.73	—	Unverified
7	BEVBert	success	0.73	—	Unverified
8	GMap	success	0.73	—	Unverified
9	Gloabl Normalization pre-explore	success	0.73	—	Unverified
10	FOAM-Beam Search	success	0.72	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	40.2	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	29.1	—	Unverified
3	ORAR	Task Completion (TC)	24.2	—	Unverified
4	ARC + L2STOP	Task Completion (TC)	16.68	—	Unverified
5	VLN Transformer +M-50 +style	Task Completion (TC)	16.2	—	Unverified
6	VLN Transformer	Task Completion (TC)	14.9	—	Unverified
7	ARC	Task Completion (TC)	14.13	—	Unverified
8	Retouch-RConcat	Task Completion (TC)	12.8	—	Unverified
9	Gated Attention (GA)	Task Completion (TC)	11.9	—	Unverified
10	RConcat	Task Completion (TC)	11.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MARVAL	ndtw	66.76	—	Unverified
2	EnvEdit-PT	ndtw	64.61	—	Unverified
3	HAMT	ndtw	59.94	—	Unverified
4	CLEAR-CLIP	ndtw	53.69	—	Unverified
5	Monolingual Baseline	ndtw	41.05	—	Unverified
6	Multilingual Baseline	ndtw	36.81	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FLAME	Task Completion (TC)	52.44	—	Unverified
2	ORAR + junction type + heading delta	Task Completion (TC)	46.7	—	Unverified
3	ORAR	Task Completion (TC)	45.1	—	Unverified
4	Gated Attention	Task Completion (TC)	17	—	Unverified
5	Rconcat	Task Completion (TC)	14.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	R2R+EnvDrop	spl	0.61	—	Unverified
2	RCM + SIL	spl	0.59	—	Unverified
3	Tactical Rewind - short	spl	0.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Hierarchical Cross-Modal Agent	SPL (Sucess Weighted by Path Length)	0.4	—	Unverified