Vision-Language-Action

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 157 papers

Title	Date	Tasks	Status
UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent	Jan 31, 2025	Robot ManipulationVision-Language-Action	—Unverified
Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand	Oct 17, 2024	Vision-Language-Action	—Unverified
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges	May 7, 2025	Autonomous VehiclesNatural Language Understanding	—Unverified
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks	Dec 24, 2024	Common Sense ReasoningTransfer Learning	—Unverified
VLA-Cache: Towards Efficient Vision-Language-Action Model via Adaptive Token Caching in Robotic Manipulation	Feb 4, 2025	Decision MakingSequential Decision Making	—Unverified
VLA-OS: Structuring and Dissecting Planning Representations and Paradigms in Vision-Language-Action Models	Jun 21, 2025	Action GenerationContinual Learning	—Unverified
What Can RL Bring to VLA Generalization? An Empirical Study	May 26, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation	Oct 10, 2024	Robot ManipulationVision-Language-Action	—Unverified
Hybrid Reasoning for Perception, Explanation, and Autonomous Action in Manufacturing	Jun 10, 2025	Retrieval-augmented GenerationVision-Language-Action	—Unverified
FreqPolicy: Efficient Flow-based Visuomotor Policy via Frequency Consistency	Jun 10, 2025	Action GenerationImage Generation	—Unverified
3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks	May 9, 2025	Vision-Language-Action	—Unverified
3D-VLA: A 3D Vision-Language-Action Generative World Model	Mar 14, 2024	Language ModellingLarge Language Model	—Unverified
Accelerating Vision-Language-Action Model Integrated with Action Chunking via Parallel Decoding	Mar 4, 2025	ChunkingVision-Language-Action	—Unverified
A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM	Oct 21, 2024	Decision MakingVision-Language-Action	—Unverified
An Open-Source Software Toolkit & Benchmark Suite for the Evaluation and Adaptation of Multimodal Action Models	Jun 10, 2025	Action GenerationImage Captioning	—Unverified
AnyPos: Automated Task-Agnostic Actions for Bimanual Manipulation	Jul 17, 2025	Vision-Language-Action	—Unverified
Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets	May 6, 2025	Autonomous VehiclesTAG	—Unverified
BadVLA: Towards Backdoor Attacks on Vision-Language-Action Models via Objective-Decoupled Optimization	May 22, 2025	Backdoor AttackVision-Language-Action	—Unverified
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding	Jan 8, 2025	Robot ManipulationText Generation	—Unverified
Block-wise Adaptive Caching for Accelerating Diffusion Policy	Jun 16, 2025	Action GenerationDenoising	—Unverified
BridgeVLA: Input-Output Alignment for Efficient 3D Manipulation Learning with Vision-Language Models	Jun 9, 2025	Robot ManipulationVision-Language-Action	—Unverified
CapsDT: Diffusion-Transformer for Capsule Robot Manipulation	Jun 19, 2025	DiagnosticRobot Manipulation	—Unverified
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation	Nov 29, 2024	QuantizationVision-Language-Action	—Unverified
Conditioning Matters: Training Diffusion Policies is Faster Than You Think	May 16, 2025	Vision-Language-Action	—Unverified
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models	Mar 27, 2025	Vision-Language-Action	—Unverified
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving	Aug 19, 2024	Autonomous DrivingCaption Generation	—Unverified
CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation	Jun 24, 2025	ChunkingVision-Language-Action	—Unverified
DataPlatter: Boosting Robotic Manipulation Generalization with Minimal Costly Data	Mar 25, 2025	Robot ManipulationSpatial Reasoning	—Unverified
DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping	Feb 28, 2025	Imitation LearningVision-Language-Action	—Unverified
DriveAction: A Benchmark for Exploring Human-like Driving Decisions in VLA Models	Jun 6, 2025	Autonomous DrivingAutonomous Vehicles	—Unverified
DriveMoE: Mixture-of-Experts for Vision-Language-Action Model in End-to-End Autonomous Driving	May 22, 2025	Autonomous DrivingBench2Drive	—Unverified
EfficientVLA: Training-Free Acceleration and Compression for Vision-Language-Action Models	Jun 11, 2025	Vision-Language-Action	—Unverified
Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review	May 26, 2025	Decision Making Under UncertaintySensor Fusion	—Unverified
EndoVLA: Dual-Phase Vision-Language-Action Model for Autonomous Tracking in Endoscopy	May 21, 2025	Motion PlanningVision-Language-Action	—Unverified
Evolution 6.0: Evolving Robotic Capabilities Through Generative Design	Feb 24, 2025	Action GenerationText to 3D	—Unverified
FAST: Efficient Action Tokenization for Vision-Language-Action Models	Jan 16, 2025	Vision-Language-Action	—Unverified
FLARE: Robot Learning with Implicit World Modeling	May 21, 2025	Imitation LearningVision-Language-Action	—Unverified
ForceVLA: Enhancing VLA Models with a Force-aware MoE for Contact-rich Manipulation	May 28, 2025	Contact-rich ManipulationMixture-of-Experts	—Unverified
From Intention to Execution: Probing the Generalization Boundaries of Vision-Language-Action Models	Jun 11, 2025	Imitation LearningVision-Language-Action	—Unverified
General-purpose foundation models for increased autonomy in robot-assisted surgery	Jan 1, 2024	Vision-Language-Action	—Unverified
GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation	Feb 13, 2025	Contrastive LearningVideo Generation	—Unverified
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots	Mar 18, 2025	Imitation LearningVision-Language-Action	—Unverified
GRAPE: Generalizing Robot Policy via Preference Alignment	Nov 28, 2024	Vision-Language-Action	—Unverified
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning	Apr 1, 2025	Reinforcement Learning (RL)Vision-Language-Action	—Unverified
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation	Feb 8, 2025	Robot ManipulationVision-Language-Action	—Unverified
Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models	Feb 26, 2025	Instruction FollowingVision-Language-Action	—Unverified
HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers	Sep 12, 2024	Vision-Language-Action	—Unverified
Hume: Introducing System-2 Thinking in Visual-Language-Action Model	May 27, 2025	DenoisingVision-Language-Action	—Unverified
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model	Mar 13, 2025	Common Sense ReasoningDenoising	—Unverified
Improving Vision-Language-Action Model with Online Reinforcement Learning	Jan 28, 2025	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 3 of 4Next →

No leaderboard results yet.