Vision-Language-Action

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 26–50 of 157 papers

Title	Date	Tasks	Status	Hype
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy	Mar 25, 2025	DenoisingRobot Manipulation	CodeCode Available	2
Exploring the Adversarial Vulnerabilities of Vision-Language-Action Models in Robotics	Nov 18, 2024	Vision-Language-Action	CodeCode Available	2
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control	Jul 28, 2023	ObjectQuestion Answering	CodeCode Available	2
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation	Sep 19, 2024	Vision-Language-Action	CodeCode Available	2
BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation	Jun 9, 2025	QuantizationVision-Language-Action	CodeCode Available	2
An Embodied Generalist Agent in 3D World	Nov 18, 2023	3D dense captioning3D Question Answering (3D-QA)	CodeCode Available	2
Parallels Between VLA Model Post-Training and Human Motor Learning: Progress, Challenges, and Trends	Jun 26, 2025	Action GenerationVision-Language-Action	CodeCode Available	2
Diffusion Transformer Policy	Oct 21, 2024	DenoisingVision-Language-Action	CodeCode Available	2
UAV-VLA: Vision-Language-Action System for Large Scale Aerial Mission Generation	Jan 9, 2025	Decision MakingLanguage Modeling	CodeCode Available	2
RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World	Nov 29, 2024	Robot Task PlanningScheduling	CodeCode Available	2
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution	Nov 4, 2024	GPURobot Manipulation	CodeCode Available	2
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model	Feb 20, 2025	Mixture-of-ExpertsQuestion Answering	CodeCode Available	1
Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks	Apr 2, 2024	Vision-Language-Action	CodeCode Available	1
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge	May 28, 2025	Imitation LearningMath	CodeCode Available	1
VOTE: Vision-Language-Action Optimization with Trajectory Ensemble Voting	Jul 7, 2025	Depth EstimationVision-Language-Action	CodeCode Available	1
RoboFAC: A Comprehensive Framework for Robotic Failure Analysis and Correction	May 18, 2025	Vision-Language-Action	CodeCode Available	1
Benchmarking Vision, Language, & Action Models on Robotic Learning Tasks	Nov 4, 2024	Action GenerationBenchmarking	CodeCode Available	1
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control	Feb 9, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments	May 8, 2025	BenchmarkingPrompt Engineering	CodeCode Available	1
Adversarial Attacks on Robotic Vision Language Action Models	Jun 3, 2025	Vision-Language-Action	CodeCode Available	1
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation	May 13, 2025	Robot ManipulationSpatial Reasoning	CodeCode Available	1
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models	Mar 27, 2025	Vision-Language-Action	—Unverified	0
Conditioning Matters: Training Diffusion Policies is Faster Than You Think	May 16, 2025	Vision-Language-Action	—Unverified	0
Automated Data Curation Using GPS & NLP to Generate Instruction-Action Pairs for Autonomous Vehicle Vision-Language Navigation Datasets	May 6, 2025	Autonomous VehiclesTAG	—Unverified	0
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation	Nov 29, 2024	QuantizationVision-Language-Action	—Unverified	0

Show:10 25 50

← PrevPage 2 of 7Next →

No leaderboard results yet.