Vision-Language-Action

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 157 papers

Title	Date	Tasks	Status	Hype
Probing a Vision-Language-Action Model for Symbolic States and Integration into a Cognitive Architecture	Feb 6, 2025	ObjectVision-Language-Action	—Unverified	0
VLA-Cache: Towards Efficient Vision-Language-Action Model via Adaptive Token Caching in Robotic Manipulation	Feb 4, 2025	Decision MakingSequential Decision Making	—Unverified	0
UP-VLA: A Unified Understanding and Prediction Model for Embodied Agent	Jan 31, 2025	Robot ManipulationVision-Language-Action	—Unverified	0
Improving Vision-Language-Action Model with Online Reinforcement Learning	Jan 28, 2025	reinforcement-learningReinforcement Learning	—Unverified	0
FAST: Efficient Action Tokenization for Vision-Language-Action Models	Jan 16, 2025	Vision-Language-Action	—Unverified	0
UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation	Jan 9, 2025	Decision MakingLanguage Modeling	CodeCode Available	2
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding	Jan 8, 2025	Robot ManipulationText Generation	—Unverified	0
Large language models for artificial general intelligence (AGI): A survey of foundational principles and approaches	Jan 6, 2025	Vision-Language-Action	—Unverified	0
Object-Centric Prompt-Driven Vision-Language-Action Model for Robotic Manipulation	Jan 1, 2025	Vision-Language-Action	—Unverified	0
SOLAMI: Social Vision-Language-Action Modeling for Immersive Interaction with 3D Autonomous Characters	Jan 1, 2025	Vision-Language-Action	—Unverified	0
VLABench: A Large-Scale Benchmark for Language-Conditioned Robotics Manipulation with Long-Horizon Reasoning Tasks	Dec 24, 2024	Common Sense ReasoningTransfer Learning	—Unverified	0
QUART-Online: Latency-Free Large Multimodal Language Model for Quadruped Robot Learning	Dec 20, 2024	Language ModelingLanguage Modelling	—Unverified	0
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models	Dec 18, 2024	Representation LearningRobot Manipulation	CodeCode Available	3
RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation	Dec 18, 2024	DiversityImitation Learning	—Unverified	0
Modality-Driven Design for Multi-Step Dexterous Manipulation: Insights from Neuroscience	Dec 15, 2024	Vision-Language-Action	—Unverified	0
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies	Dec 13, 2024	Robot ManipulationVision-Language-Action	—Unverified	0
Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks	Dec 9, 2024	Vision-Language-Action	—Unverified	0
NaVILA: Legged Robot Vision-Language-Action Model for Navigation	Dec 5, 2024	NavigateVision and Language Navigation	—Unverified	0
Quantization-Aware Imitation-Learning for Resource-Efficient Robotic Control	Dec 2, 2024	Autonomous DrivingDecision Making	—Unverified	0
RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World	Nov 29, 2024	Robot Task PlanningScheduling	CodeCode Available	2
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation	Nov 29, 2024	QuantizationVision-Language-Action	—Unverified	0
GRAPE: Generalizing Robot Policy via Preference Alignment	Nov 28, 2024	Vision-Language-Action	—Unverified	0
ShowUI: One Vision-Language-Action Model for GUI Visual Agent	Nov 26, 2024	Instruction FollowingNatural Language Visual Grounding	CodeCode Available	5
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics	Nov 18, 2024	Vision-Language-Action	CodeCode Available	2
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks	Nov 4, 2024	Action GenerationBenchmarking	CodeCode Available	1
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution	Nov 4, 2024	GPURobot Manipulation	CodeCode Available	2
π_0: A Vision-Language-Action Flow Model for General Robot Control	Oct 31, 2024	Language ModelingLanguage Modelling	—Unverified	0
Diffusion Transformer Policy	Oct 21, 2024	DenoisingVision-Language-Action	CodeCode Available	2
A Dual Process VLA: Efficient Robotic Manipulation Leveraging VLM	Oct 21, 2024	Decision MakingVision-Language-Action	—Unverified	0
Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand	Oct 17, 2024	Vision-Language-Action	—Unverified	0
Latent Action Pretraining from Videos	Oct 15, 2024	QuantizationRobot Manipulation	CodeCode Available	3
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation	Oct 10, 2024	Robot ManipulationVision-Language-Action	—Unverified	0
LADEV: A Language-Driven Testing and Evaluation Platform for Vision-Language-Action Models in Robotic Manipulation	Oct 7, 2024	Vision-Language-Action	—Unverified	0
Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust	Oct 2, 2024	Vision-Language-Action	—Unverified	0
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models	Sep 23, 2024	Vision-Language-Action	—Unverified	0
Manipulation Facing Threats: Evaluating Physical Vulnerabilities in End-to-End Vision Language Action Models	Sep 20, 2024	Vision-Language-Action	—Unverified	0
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation	Sep 19, 2024	Vision-Language-Action	CodeCode Available	2
HiRT: Enhancing Robotic Control with Hierarchical Robot Transformers	Sep 12, 2024	Vision-Language-Action	—Unverified	0
OccLLaMA: An Occupancy-Language-Action Generative World Model for Autonomous Driving	Sep 5, 2024	Autonomous DrivingMotion Planning	—Unverified	0
CoVLA: Comprehensive Vision-Language-Action Dataset for Autonomous Driving	Aug 19, 2024	Autonomous DrivingCaption Generation	—Unverified	0
Robotic Control via Embodied Chain-of-Thought Reasoning	Jul 11, 2024	Vision-Language-Action	—Unverified	0
Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs	Jul 10, 2024	Common Sense ReasoningVision-Language-Action	—Unverified	0
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy	Jun 28, 2024	Vision-Language-ActionWorld Knowledge	CodeCode Available	3
OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents	Jun 27, 2024	DecoderImitation Learning	—Unverified	0
Towards Natural Language-Driven Assembly Using Foundation Models	Jun 23, 2024	FrictionVision-Language-Action	—Unverified	0
OpenVLA: An Open-Source Vision-Language-Action Model	Jun 13, 2024	Imitation LearningLanguage Modelling	CodeCode Available	9
RoboMamba: Efficient Vision-Language-Action Model for Robotic Reasoning and Manipulation	Jun 6, 2024	Common Sense ReasoningMamba	—Unverified	0
Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning	May 31, 2024	Action RecognitionContrastive Learning	CodeCode Available	0
A Survey on Vision-Language-Action Models for Embodied AI	May 23, 2024	Image CaptioningInstruction Following	CodeCode Available	4
LEGENT: Open Platform for Embodied Agents	Apr 28, 2024	Vision-Language-Action	—Unverified	0

Show:10 25 50

← PrevPage 3 of 4Next →

No leaderboard results yet.