Vision-Language-Action

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 157 papers

Title	Date	Tasks	Status	Hype
AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation	Jul 17, 2025	Vision-Language-Action	—Unverified	0
LaViPlan : Language-Guided Visual Path Planning with RLVR	Jul 17, 2025	Autonomous DrivingVision-Language-Action	—Unverified	0
Vision Language Action Models in Robotic Manipulation: A Systematic Review	Jul 14, 2025	Dataset GenerationNatural Language Understanding	CodeCode Available	2
VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting	Jul 7, 2025	Depth EstimationVision-Language-Action	CodeCode Available	1
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge	Jul 6, 2025	Image GenerationMultimodal Reasoning	CodeCode Available	3
A Survey on Vision-Language-Action Models for Autonomous Driving	Jun 30, 2025	Autonomous DrivingAutonomous Vehicles	CodeCode Available	4
Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends	Jun 26, 2025	Action GenerationVision-Language-Action	CodeCode Available	2
WorldVLA: Towards Autoregressive Action World Model	Jun 26, 2025	Action Generationmodel	CodeCode Available	4
CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation	Jun 24, 2025	ChunkingVision-Language-Action	—Unverified	0
Unified Vision-Language-Action Model	Jun 24, 2025	Autonomous Drivingmodel	—Unverified	0
VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models	Jun 21, 2025	Action GenerationContinual Learning	—Unverified	0
RLRC: Reinforcement Learning-based Recovery for Compressed Vision-Language-Action Models	Jun 21, 2025	Model CompressionQuantization	—Unverified	0
RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models	Jun 21, 2025	Synthetic Data GenerationVision-Language-Action	—Unverified	0
CapsDT: Diffusion-Transformer for Capsule Robot Manipulation	Jun 19, 2025	DiagnosticRobot Manipulation	—Unverified	0
A Comprehensive Survey on Continual Learning in Generative Models	Jun 16, 2025	Continual LearningSurvey	CodeCode Available	2
LeVERB: Humanoid Whole-Body Control with Latent Vision-Language Instruction	Jun 16, 2025	Instruction FollowingVision-Language-Action	—Unverified	0
Block-wise Adaptive Caching for Accelerating Diffusion Policy	Jun 16, 2025	Action GenerationDenoising	—Unverified	0
ROSA: Harnessing Robot States for Vision-Language and Action Alignment	Jun 16, 2025	State EstimationVision-Language-Action	—Unverified	0
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning	Jun 16, 2025	Action GenerationAutonomous Driving	CodeCode Available	3
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models	Jun 11, 2025	Imitation LearningVision-Language-Action	—Unverified	0
SAFE: Multitask Failure Detection for Vision-Language-Action Models	Jun 11, 2025	Conformal PredictionVision-Language-Action	—Unverified	0
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models	Jun 11, 2025	Vision-Language-Action	—Unverified	0
An Open-Source Software Toolkit & Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models	Jun 10, 2025	Action GenerationImage Captioning	—Unverified	0
TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization	Jun 10, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	0
FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency	Jun 10, 2025	Action GenerationImage Generation	—Unverified	0
Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing	Jun 10, 2025	Retrieval-augmented GenerationVision-Language-Action	—Unverified	0
Real-Time Execution of Action Chunking Flow Policies	Jun 9, 2025	ChunkingVision-Language-Action	CodeCode Available	3
BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models	Jun 9, 2025	Robot ManipulationVision-Language-Action	—Unverified	0
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation	Jun 9, 2025	QuantizationVision-Language-Action	CodeCode Available	2
Surgeon Style Fingerprinting and Privacy Risk Quantification via Discrete Diffusion Models in a Vision-Language-Action Framework	Jun 9, 2025	DenoisingVision-Language-Action	CodeCode Available	0
Robotic Policy Learning via Human-assisted Action Preference Optimization	Jun 8, 2025	Vision-Language-Action	—Unverified	0
RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation	Jun 7, 2025	Vision-Language-Action	—Unverified	0
DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models	Jun 6, 2025	Autonomous DrivingAutonomous Vehicles	—Unverified	0
Adversarial Attacks on Robotic Vision Language Action Models	Jun 3, 2025	Vision-Language-Action	CodeCode Available	1
ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding	Jun 2, 2025	Action RecognitionVideo Understanding	—Unverified	0
SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics	Jun 2, 2025	Action GenerationGPU	CodeCode Available	12
OG-VLA: 3D-Aware Vision Language Action Model via Orthographic Image Generation	Jun 1, 2025	Image GenerationLarge Language Model	—Unverified	0
LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks	May 31, 2025	Task PlanningVision-Language-Action	—Unverified	0
Towards a Generalizable Bimanual Foundation Policy via Flow-based Video Prediction	May 30, 2025	Action GenerationOptical Flow Estimation	—Unverified	0
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models	May 29, 2025	Autonomous DrivingDiagnostic	CodeCode Available	3
TrackVLA: Embodied Visual Tracking in the Wild	May 29, 2025	Language ModelingLanguage Modelling	—Unverified	0
Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better	May 29, 2025	continuous-controlContinuous Control	—Unverified	0
ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation	May 28, 2025	Contact-rich ManipulationMixture-of-Experts	—Unverified	0
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge	May 28, 2025	Imitation LearningMath	CodeCode Available	1
Hume: Introducing System-2 Thinking in Visual-Language-Action Model	May 27, 2025	DenoisingVision-Language-Action	—Unverified	0
Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review	May 26, 2025	Decision Making Under UncertaintySensor Fusion	—Unverified	0
What Can RL Bring to VLA Generalization? An Empirical Study	May 26, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified	0
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning	May 24, 2025	GPUReinforcement Learning (RL)	CodeCode Available	3
Interactive Post-Training for Vision-Language-Action Models	May 22, 2025	Vision-Language-Action	—Unverified	0
DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving	May 22, 2025	Autonomous DrivingBench2Drive	—Unverified	0

Show:10 25 50

← PrevPage 1 of 4Next →

No leaderboard results yet.