Vision-Language-Action

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 157 papers

Title	Date	Tasks	Status	Hype
BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization	May 22, 2025	Backdoor AttackVision-Language-Action	—Unverified	0
Perceptual Quality Assessment for Embodied AI	May 22, 2025	Image Quality AssessmentVision-Language-Action	CodeCode Available	0
Object-Focus Actor for Data-efficient Robot Generalization Dexterous Manipulation	May 21, 2025	ObjectPose Estimation	—Unverified	0
Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization	May 21, 2025	Vision-Language-ActionZero-shot Generalization	CodeCode Available	2
EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy	May 21, 2025	Motion PlanningVision-Language-Action	—Unverified	0
FLARE: Robot Learning with Implicit World Modeling	May 21, 2025	Imitation LearningVision-Language-Action	—Unverified	0
RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction	May 18, 2025	Vision-Language-Action	CodeCode Available	1
Conditioning Matters: Training Diffusion Policies is Faster Than You Think	May 16, 2025	Vision-Language-Action	—Unverified	0
RT-cache: Efficient Robot Trajectory Retrieval System	May 14, 2025	RetrievalVision-Language-Action	—Unverified	0
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation	May 13, 2025	Robot ManipulationSpatial Reasoning	CodeCode Available	1
Pixel Motion as Universal Representation for Robot Control	May 12, 2025	Vision-Language-Action	—Unverified	0
3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks	May 9, 2025	Vision-Language-Action	—Unverified	0
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions	May 9, 2025	Robot ManipulationVision-Language-Action	CodeCode Available	5
Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments	May 8, 2025	BenchmarkingPrompt Engineering	CodeCode Available	1
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges	May 7, 2025	Autonomous VehiclesNatural Language Understanding	—Unverified	0
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation	May 6, 2025	Robot ManipulationVision-Language-Action	CodeCode Available	3
Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets	May 6, 2025	Autonomous VehiclesTAG	—Unverified	0
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks	Apr 28, 2025	Task PlanningVision-Language-Action	—Unverified	0
π_0.5: a Vision-Language-Action Model with Open-World Generalization	Apr 22, 2025	Transfer LearningVision-Language-Action	—Unverified	0
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents	Apr 14, 2025	Vision-Language-Action	CodeCode Available	3
OPAL: Encoding Causal Understanding of Physical Systems for Robot Learning	Apr 9, 2025	Vision-Language-Action	—Unverified	0
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning	Apr 1, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified	0
OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model	Mar 30, 2025	Autonomous DrivingDecision Making	CodeCode Available	4
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models	Mar 27, 2025	Vision-Language-Action	—Unverified	0
MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation	Mar 26, 2025	Knowledge DistillationMixture-of-Experts	—Unverified	0
DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data	Mar 25, 2025	Robot ManipulationSpatial Reasoning	—Unverified	0
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy	Mar 25, 2025	DenoisingRobot Manipulation	CodeCode Available	2
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots	Mar 18, 2025	Imitation LearningVision-Language-Action	—Unverified	0
MoManipVLA: Transferring Vision-language-action Models for General Mobile Manipulation	Mar 17, 2025	Motion PlanningVision-Language-Action	—Unverified	0
ReBot: Scaling Robot Learning with Real-to-Sim-to-Real Robotic Video Synthesis	Mar 15, 2025	Domain GeneralizationRobot Manipulation	—Unverified	0
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model	Mar 13, 2025	Common Sense ReasoningDenoising	—Unverified	0
CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games	Mar 12, 2025	Decision MakingVision-Language-Action	CodeCode Available	2
MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models	Mar 11, 2025	Large Language ModelMixture-of-Experts	—Unverified	0
PointVLA: Injecting the 3D World into Vision-Language-Action Models	Mar 10, 2025	Imitation LearningSpatial Reasoning	CodeCode Available	4
Refined Policy Distillation: From VLA Generalists to RL Experts	Mar 6, 2025	Vision-Language-Action	—Unverified	0
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning	Mar 5, 2025	Safe Reinforcement LearningSafety Alignment	—Unverified	0
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction	Mar 5, 2025	Vision-Language-ActionZero-shot Generalization	—Unverified	0
Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding	Mar 4, 2025	ChunkingVision-Language-Action	—Unverified	0
A Taxonomy for Evaluating Generalist Robot Policies	Mar 3, 2025	Robot ManipulationVision-Language-Action	—Unverified	0
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping	Feb 28, 2025	Imitation LearningVision-Language-Action	—Unverified	0
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success	Feb 27, 2025	Action GenerationChunking	CodeCode Available	5
ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration	Feb 26, 2025	Imitation LearningObject	—Unverified	0
Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models	Feb 26, 2025	Instruction FollowingVision-Language-Action	—Unverified	0
Evolution 6.0: Evolving Robotic Capabilities Through Generative Design	Feb 24, 2025	Action GenerationText to 3D	—Unverified	0
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model	Feb 20, 2025	Mixture-of-ExpertsQuestion Answering	CodeCode Available	1
GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation	Feb 13, 2025	Contrastive LearningVideo Generation	—Unverified	0
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control	Feb 9, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy	Feb 8, 2025	Q-LearningSafe Exploration	CodeCode Available	3
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation	Feb 8, 2025	Robot ManipulationVision-Language-Action	—Unverified	0
Survey on Vision-Language-Action Models	Feb 7, 2025	Review GenerationSurvey	—Unverified	0

Show:10 25 50

← PrevPage 2 of 4Next →

No leaderboard results yet.