Robot Manipulation

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 430 papers

Title	Date	Tasks	Status	Hype
OpenVLA: An Open-Source Vision-Language-Action Model	Jun 13, 2024	Imitation LearningLanguage Modelling	CodeCode Available	9
On the Vulnerability of LLM/VLM-Controlled Robotics	Feb 15, 2024	Language ModellingRobot Manipulation	CodeCode Available	7
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations	Mar 6, 2024	Imitation LearningRobot Manipulation	CodeCode Available	5
Magma: A Foundation Model for Multimodal AI Agents	Feb 18, 2025	Autonomous Web NavigationImage to text	CodeCode Available	5
Evaluating Real-World Robot Manipulation Policies in Simulation	May 9, 2024	Robotic GraspingRobot Manipulation	CodeCode Available	5
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions	May 9, 2025	Robot ManipulationVision-Language-Action	CodeCode Available	5
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models	Dec 18, 2024	Representation LearningRobot Manipulation	CodeCode Available	3
3D Diffuser Actor: Policy Diffusion with 3D Scene Representations	Feb 18, 2024	DenoisingRobot Manipulation	CodeCode Available	3
Video Prediction Policy: A Generalist Robot Policy with Predictive Visual Representations	Dec 19, 2024	Contrastive LearningImage Reconstruction	CodeCode Available	3
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning	Jun 5, 2023	Benchmarking	CodeCode Available	3
PhysTwin: Physics-Informed Reconstruction and Simulation of Deformable Objects from Videos	Mar 23, 2025	4D reconstructionDeformable Object Manipulation	CodeCode Available	3
3D Diffuser Actor: Policy Diffusion with 3D Scene Representations	Feb 16, 2024	DenoisingRobot Manipulation	CodeCode Available	3
RVT-2: Learning Precise Manipulation from Few Demonstrations	Jun 12, 2024	Robot ManipulationRobot Manipulation Generalization	CodeCode Available	3
RLVR-World: Training World Models with Reinforcement Learning	May 20, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	3
Latent Action Pretraining from Videos	Oct 15, 2024	QuantizationRobot Manipulation	CodeCode Available	3
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation	Feb 18, 2025	Object RearrangementRobot Manipulation	CodeCode Available	3
OpenHelix: A Short Survey, Empirical Analysis, and Open-Source Dual-System VLA Model for Robotic Manipulation	May 6, 2025	Robot ManipulationVision-Language-Action	CodeCode Available	3
RT-1: Robotics Transformer for Real-World Control at Scale	Dec 13, 2022	DiversityRobot Manipulation	CodeCode Available	3
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge	Jul 6, 2025	Image GenerationMultimodal Reasoning	CodeCode Available	3
Affordance-based Robot Manipulation with Flow Matching	Sep 2, 2024	Action GenerationRobot Manipulation	CodeCode Available	3
GR-MG: Leveraging Partially Annotated Data via Multi-Modal Goal-Conditioned Policy	Aug 26, 2024	Few-Shot LearningImage Generation	CodeCode Available	2
VIMA: General Robot Manipulation with Multimodal Prompts	Oct 6, 2022	Imitation LearningLanguage Modelling	CodeCode Available	2
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models	Jul 12, 2023	FormLanguage Modelling	CodeCode Available	2
FurnitureBench: Reproducible Real-World Benchmark for Long-Horizon Complex Manipulation	May 22, 2023	Imitation LearningMotion Planning	CodeCode Available	2
Unleashing Large-Scale Video Generative Pre-training for Visual Robot Manipulation	Dec 20, 2023	Robot ManipulationZero-shot Generalization	CodeCode Available	2
Generative Image as Action Models	Jul 10, 2024	Image GenerationRobot Manipulation	CodeCode Available	2
Streaming Diffusion Policy: Fast Policy Synthesis with Variable Noise Diffusion Models	Jun 7, 2024	DenoisingImage Generation	CodeCode Available	2
Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy	Oct 2, 2024	Motion PlanningRobot Manipulation	CodeCode Available	2
Emma-X: An Embodied Multimodal Action Model with Grounded Chain of Thought and Look-ahead Spatial Reasoning	Dec 16, 2024	HallucinationRobot Manipulation	CodeCode Available	2
What Matters in Learning from Offline Human Demonstrations for Robot Manipulation	Aug 6, 2021	Imitation Learningreinforcement-learning	CodeCode Available	2
Equivariant Diffusion Policy	Jul 1, 2024	Imitation LearningRobot Manipulation	CodeCode Available	2
RVT: Robotic View Transformer for 3D Object Manipulation	Jun 26, 2023	ObjectRobot Manipulation	CodeCode Available	2
Robot Trajectron: Trajectory Prediction-based Shared Control for Robot Manipulation	Feb 4, 2024	PositionRobot Manipulation	CodeCode Available	2
Autoregressive Action Sequence Learning for Robotic Manipulation	Oct 4, 2024	ChunkingLanguage Modeling	CodeCode Available	2
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control	Jul 28, 2023	ObjectQuestion Answering	CodeCode Available	2
SE(3)-DiffusionFields: Learning smooth cost functions for joint grasp and motion optimization through diffusion	Sep 8, 2022	Motion PlanningRobot Manipulation	CodeCode Available	2
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution	Nov 4, 2024	GPURobot Manipulation	CodeCode Available	2
AutoEval: Autonomous Evaluation of Generalist Robot Manipulation Policies in the Real World	Mar 31, 2025	Robot ManipulationScheduling	CodeCode Available	2
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation	Sep 12, 2022	Robot ManipulationRobot Manipulation Generalization	CodeCode Available	2
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation	Jun 30, 2023	Action DetectionPose Prediction	CodeCode Available	2
R3M: A Universal Visual Representation for Robot Manipulation	Mar 23, 2022	Contrastive LearningRobot Manipulation	CodeCode Available	2
RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulation	Jun 27, 2024	Language ModelingLanguage Modelling	CodeCode Available	2
Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy	Mar 25, 2025	DenoisingRobot Manipulation	CodeCode Available	2
Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos	Dec 5, 2024	Robot Manipulation	CodeCode Available	2
An Embodied Generalist Agent in 3D World	Nov 18, 2023	3D dense captioning3D Question Answering (3D-QA)	CodeCode Available	2
Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning	Dec 17, 2024	Denoising	CodeCode Available	2
CACTI: A Framework for Scalable Multi-Task Multi-Scene Visual Imitation Learning	Dec 12, 2022	Data AugmentationImage Generation	CodeCode Available	1
ABNet: Attention BarrierNet for Safe and Scalable Robot Learning	Jun 18, 2024	Autonomous DrivingRobot Manipulation	CodeCode Available	1
CALVIN: A Benchmark for Language-Conditioned Policy Learning for Long-Horizon Robot Manipulation Tasks	Dec 6, 2021	Continuous ControlImitation Learning	CodeCode Available	1
Goal-Conditioned Imitation Learning using Score-based Diffusion Policies	Apr 5, 2023	DenoisingImitation Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 9Next →

All datasets CALVIN RLBench SimplerEnv-Google Robot MimicGen SimplerEnv-Widow X

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DreamVLA	avg. sequence length (D to D)	4.44	—	Unverified
2	VPP	avg. sequence length (D to D)	4.29	—	Unverified
3	RoboVLMs	avg. sequence length (D to D)	4.25	—	Unverified
4	Openhelix	avg. sequence length (D to D)	4.08	—	Unverified
5	UP-VLA	avg. sequence length (D to D)	4.08	—	Unverified
6	GR-MG	avg. sequence length (D to D)	4.04	—	Unverified
7	MoDE	avg. sequence length (D to D)	4.01	—	Unverified
8	RoboUniView	avg. sequence length (D to D)	3.86	—	Unverified
9	UniVLA	avg. sequence length (D to D)	3.8	—	Unverified
10	RoboDual	avg. sequence length (D to D)	3.66	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EquAct	Succ. Rate (18 tasks, 100 demo/task)	89.4	—	Unverified
2	SAM2Act	Succ. Rate (18 tasks, 100 demo/task)	86.8	—	Unverified
3	ARP+	Succ. Rate (18 tasks, 100 demo/task)	84.9	—	Unverified
4	3D-LOTUS	Succ. Rate (18 tasks, 100 demo/task)	83.1	—	Unverified
5	RVT-2	Succ. Rate (18 tasks, 100 demo/task)	81.4	—	Unverified
6	3D Diffuser Actor	Succ. Rate (18 tasks, 100 demo/task)	81.3	—	Unverified
7	Mini Diffuser	Succ. Rate (18 tasks, 100 demo/task)	77.6	—	Unverified
8	SAM-E	Succ. Rate (18 tasks, 100 demo/task)	70.6	—	Unverified
9	Auto-λ	Succ. Rate (10 tasks, 100 demos/task)	69.3	—	Unverified
10	Act3D	Succ. Rate (18 tasks, 100 demo/task)	65	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SoFar	Visual Matching	0.75	—	Unverified
2	SpatialVLA	Visual Matching	0.72	—	Unverified
3	Dita-300M	Visual Matching	0.69	—	Unverified
4	RT-2-X	Visual Matching	0.61	—	Unverified
5	RoboVLM	Visual Matching	0.56	—	Unverified
6	RT-1-X	Visual Matching	0.53	—	Unverified
7	TraceVLA	Visual Matching	0.46	—	Unverified
8	OpenVLA	Visual Matching	0.28	—	Unverified
9	Octo-Base	Visual Matching	0.17	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SDP	Succ. Rate (12 tasks, 100 demo/task)	76	—	Unverified
2	EquiDiff (Voxel)	Succ. Rate (12 tasks, 100 demo/task)	63.9	—	Unverified
3	EquiDiff (Image)	Succ. Rate (12 tasks, 100 demo/task)	53.7	—	Unverified
4	DP (Evaluated in EquiDiff)	Succ. Rate (12 tasks, 100 demo/task)	42	—	Unverified
5	DP3 (Evaluated in EquiDiff)	Succ. Rate (12 tasks, 100 demo/task)	23.9	—	Unverified
6	BC RNN (Evaluated in EquiDiff)	Succ. Rate (12 tasks, 100 demo/task)	22.9	—	Unverified
7	ACT (Evaluated in EquiDiff)	Succ. Rate (12 tasks, 100 demo/task)	21.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SoFar	Average	0.58	—	Unverified
2	SpatialVLA	Average	0.34	—	Unverified
3	Octo-Small	Average	0.3	—	Unverified
4	Octo-Base	Average	0.16	—	Unverified
5	RoboVLM	Average	0.14	—	Unverified
6	RT-1-X	Average	0.01	—	Unverified
7	OpenVLA	Average	0.01	—	Unverified