Vision-Language-Action

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 157 papers

Title	Date	Tasks	Status	Hype	Score
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics	Jun 2, 2025	Action GenerationGPU	CodeCode Available	12	5
OpenVLA: An Open-Source Vision-Language-Action Model	Jun 13, 2024	Imitation LearningLanguage Modelling	CodeCode Available	9	5
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions	May 9, 2025	Robot ManipulationVision-Language-Action	CodeCode Available	5	5
ShowUI: One Vision-Language-Action Model for GUI Visual Agent	Nov 26, 2024	Instruction FollowingNatural Language Visual Grounding	CodeCode Available	5	5
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success	Feb 27, 2025	Action GenerationChunking	CodeCode Available	5	5
A Survey on Vision-Language-Action Models for Embodied AI	May 23, 2024	Image CaptioningInstruction Following	CodeCode Available	4	5
A Survey on Vision-Language-Action Models for Autonomous Driving	Jun 30, 2025	Autonomous DrivingAutonomous Vehicles	CodeCode Available	4	5
OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model	Mar 30, 2025	Autonomous DrivingDecision Making	CodeCode Available	4	5
WorldVLA: Towards Autoregressive Action World Model	Jun 26, 2025	Action Generationmodel	CodeCode Available	4	5
PointVLA: Injecting the 3D World into Vision-Language-Action Models	Mar 10, 2025	Imitation LearningSpatial Reasoning	CodeCode Available	4	5
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models	Dec 18, 2024	Representation LearningRobot Manipulation	CodeCode Available	3	5
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning	May 24, 2025	GPUReinforcement Learning (RL)	CodeCode Available	3	5
GUI-R1 : A Generalist R1-Style Vision-Language Action Model For GUI Agents	Apr 14, 2025	Vision-Language-Action	CodeCode Available	3	5
ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy	Feb 8, 2025	Q-LearningSafe Exploration	CodeCode Available	3	5
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation	May 6, 2025	Robot ManipulationVision-Language-Action	CodeCode Available	3	5
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning	Jun 16, 2025	Action GenerationAutonomous Driving	CodeCode Available	3	5
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy	Jun 28, 2024	Vision-Language-ActionWorld Knowledge	CodeCode Available	3	5
Latent Action Pretraining from Videos	Oct 15, 2024	QuantizationRobot Manipulation	CodeCode Available	3	5
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge	Jul 6, 2025	Image GenerationMultimodal Reasoning	CodeCode Available	3	5
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models	May 29, 2025	Autonomous DrivingDiagnostic	CodeCode Available	3	5
Real-Time Execution of Action Chunking Flow Policies	Jun 9, 2025	ChunkingVision-Language-Action	CodeCode Available	3	5
A Comprehensive Survey on Continual Learning in Generative Models	Jun 16, 2025	Continual LearningSurvey	CodeCode Available	2	5
CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games	Mar 12, 2025	Decision MakingVision-Language-Action	CodeCode Available	2	5
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy	Mar 25, 2025	DenoisingRobot Manipulation	CodeCode Available	2	5
Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization	May 21, 2025	Vision-Language-ActionZero-shot Generalization	CodeCode Available	2	5
UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation	Jan 9, 2025	Decision MakingLanguage Modeling	CodeCode Available	2	5
Vision Language Action Models in Robotic Manipulation: A Systematic Review	Jul 14, 2025	Dataset GenerationNatural Language Understanding	CodeCode Available	2	5
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control	Jul 28, 2023	ObjectQuestion Answering	CodeCode Available	2	5
RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World	Nov 29, 2024	Robot Task PlanningScheduling	CodeCode Available	2	5
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation	Jun 9, 2025	QuantizationVision-Language-Action	CodeCode Available	2	5
An Embodied Generalist Agent in 3D World	Nov 18, 2023	3D dense captioning3D Question Answering (3D-QA)	CodeCode Available	2	5
Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends	Jun 26, 2025	Action GenerationVision-Language-Action	CodeCode Available	2	5
Diffusion Transformer Policy	Oct 21, 2024	DenoisingVision-Language-Action	CodeCode Available	2	5
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation	Sep 19, 2024	Vision-Language-Action	CodeCode Available	2	5
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics	Nov 18, 2024	Vision-Language-Action	CodeCode Available	2	5
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution	Nov 4, 2024	GPURobot Manipulation	CodeCode Available	2	5
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge	May 28, 2025	Imitation LearningMath	CodeCode Available	1	5
VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting	Jul 7, 2025	Depth EstimationVision-Language-Action	CodeCode Available	1	5
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model	Feb 20, 2025	Mixture-of-ExpertsQuestion Answering	CodeCode Available	1	5
Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks	Apr 2, 2024	Vision-Language-Action	CodeCode Available	1	5
RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction	May 18, 2025	Vision-Language-Action	CodeCode Available	1	5
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks	Nov 4, 2024	Action GenerationBenchmarking	CodeCode Available	1	5
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control	Feb 9, 2025	Language ModelingLanguage Modelling	CodeCode Available	1	5
Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments	May 8, 2025	BenchmarkingPrompt Engineering	CodeCode Available	1	5
Adversarial Attacks on Robotic Vision Language Action Models	Jun 3, 2025	Vision-Language-Action	CodeCode Available	1	5
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation	May 13, 2025	Robot ManipulationSpatial Reasoning	CodeCode Available	1	5
Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning	May 31, 2024	Action RecognitionContrastive Learning	CodeCode Available	0	5
Perceptual Quality Assessment for Embodied AI	May 22, 2025	Image Quality AssessmentVision-Language-Action	CodeCode Available	0	5
Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework	Jun 9, 2025	DenoisingVision-Language-Action	CodeCode Available	0	5
TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization	Jun 10, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 4Next →

No leaderboard results yet.