Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1161 papers

Title	Date	Tasks	Status	Hype	Score
Continuous control with deep reinforcement learning	Sep 9, 2015	Action Detectioncontinuous-control	CodeCode Available	1	5
Generating Adjacency-Constrained Subgoals in Hierarchical Reinforcement Learning	Jun 20, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Softmax Deep Double Deterministic Policy Gradients	Oct 19, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Continuous Deep Q-Learning with Model-based Acceleration	Mar 2, 2016	continuous-controlContinuous Control	CodeCode Available	1	5
Continuous descriptor-based control for deep audio synthesis	Feb 27, 2023	Audio Synthesiscontinuous-control	CodeCode Available	1	5
Amortizing intractable inference in diffusion models for vision, language, and control	May 31, 2024	continuous-controlContinuous Control	CodeCode Available	1	5
Towards Safe Reinforcement Learning via Constraining Conditional Value-at-Risk	Jun 9, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
Continuous MDP Homomorphisms and Homomorphic Policy Gradient	Sep 15, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
Transformers are Meta-Reinforcement Learners	Jun 14, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
UAV Obstacle Avoidance by Human-in-the-Loop Reinforcement in Arbitrary 3D Environment	Apr 7, 2023	continuous-controlContinuous Control	CodeCode Available	1	5
Continuous-Time Fitted Value Iteration for Robust Policies	Oct 5, 2021	continuous-controlContinuous Control	CodeCode Available	1	5
Hierarchical Skills for Efficient Exploration	Oct 20, 2021	continuous-controlContinuous Control	CodeCode Available	1	5
Variational Imitation Learning with Diverse-quality Demonstrations	Jan 1, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Hamilton-Jacobi Deep Q-Learning for Deterministic Continuous-Time Systems with Lipschitz Continuous Controls	Oct 27, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Addressing Function Approximation Error in Actor-Critic Methods	Feb 26, 2018	Continuous ControlOpenAI Gym	CodeCode Available	1	5
How to Learn a Useful Critic? Model-based Action-Gradient-Estimator Policy Optimization	Apr 29, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Contrastive Variational Reinforcement Learning for Complex Observations	Aug 6, 2020	Atari GamesContinuous Control	CodeCode Available	1	5
How Crucial is Transformer in Decision Transformer?	Nov 26, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
Bisimulation metric for Model Predictive Control	Oct 6, 2024	Computational Efficiencycontinuous-control	CodeCode Available	0	5
Dataset Clustering for Improved Offline Policy Learning	Feb 14, 2024	Clusteringcontinuous-control	CodeCode Available	0	5
Learning State Representations via Retracing in Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available	0	5
Learning with Expert Abstractions for Efficient Multi-Task Continuous Control	Mar 19, 2025	continuous-controlContinuous Control	CodeCode Available	0	5
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations	Apr 1, 2020	continuous-controlContinuous Control	CodeCode Available	0	5
Learning Stabilizable Nonlinear Dynamics with Contraction-Based Regularization	Jul 29, 2019	continuous-controlContinuous Control	CodeCode Available	0	5
Better Exploration with Optimistic Actor Critic	Dec 1, 2019	continuous-controlContinuous Control	CodeCode Available	0	5
Learning model-based planning from scratch	Jul 19, 2017	continuous-controlContinuous Control	CodeCode Available	0	5
Learning State Abstractions for Transfer in Continuous Control	Feb 8, 2020	continuous-controlContinuous Control	CodeCode Available	0	5
Leveraging exploration in off-policy algorithms via normalizing flows	May 16, 2019	continuous-controlContinuous Control	CodeCode Available	0	5
Learning Continuous Control Policies by Stochastic Value Gradients	Oct 30, 2015	continuous-controlContinuous Control	CodeCode Available	0	5
Learning Bellman Complete Representations for Offline Policy Evaluation	Jul 12, 2022	continuous-controlContinuous Control	CodeCode Available	0	5
Learning Continuous Control Policies for Information-Theoretic Active Perception	Sep 26, 2022	continuous-controlContinuous Control	CodeCode Available	0	5
Learning-Based Model Predictive Control for Piecewise Affine Systems with Feasibility Guarantees	Nov 30, 2024	continuous-controlContinuous Control	CodeCode Available	0	5
Benchmarking Reinforcement Learning Algorithms on Real-World Robots	Sep 20, 2018	Benchmarkingcontinuous-control	CodeCode Available	0	5
Learning Belief Representations for Imitation Learning in POMDPs	Jun 22, 2019	continuous-controlContinuous Control	CodeCode Available	0	5
Learning Provably Stabilizing Neural Controllers for Discrete-Time Stochastic Systems	Oct 11, 2022	continuous-controlContinuous Control	CodeCode Available	0	5
CrystalBox: Future-Based Explanations for Input-Driven Deep RL Systems	Feb 27, 2023	continuous-controlContinuous Control	CodeCode Available	0	5
Co-training for Policy Learning	Jul 3, 2019	Combinatorial Optimizationcontinuous-control	CodeCode Available	0	5
CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics	May 4, 2024	continuous-controlContinuous Control	CodeCode Available	0	5
Behaviour Distillation	Jun 21, 2024	Continual Learningcontinuous-control	CodeCode Available	0	5
CO-PILOT: COllaborative Planning and reInforcement Learning On sub-Task curriculum	Dec 1, 2021	continuous-controlContinuous Control	CodeCode Available	0	5
Inverse reinforcement learning for video games	Oct 24, 2018	continuous-controlContinuous Control	CodeCode Available	0	5
Information Theoretic Regret Bounds for Online Nonlinear Control	Jun 22, 2020	continuous-controlContinuous Control	CodeCode Available	0	5
Improving Value Estimation Critically Enhances Vanilla Policy Gradient	May 25, 2025	continuous-controlContinuous Control	CodeCode Available	0	5
Learning Action-Transferable Policy with Action Embedding	Sep 5, 2019	Continuous ControlReinforcement Learning	CodeCode Available	0	5
Understanding and Mitigating the Limitations of Prioritized Experience Replay	Jul 19, 2020	Autonomous Drivingcontinuous-control	CodeCode Available	0	5
Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial Imitation Learning	Jun 28, 2020	AllContinuous Control	CodeCode Available	0	5
Control Regularization for Reduced Variance Reinforcement Learning	May 14, 2019	continuous-controlContinuous Control	CodeCode Available	0	5
Bayesian Policy Gradients via Alpha Divergence Dropout Inference	Dec 6, 2017	continuous-controlContinuous Control	CodeCode Available	0	5
Contrasting Exploration in Parameter and Action Space: A Zeroth-Order Optimization Perspective	Jan 31, 2019	continuous-controlContinuous Control	CodeCode Available	0	5
High-Dimensional Continuous Control Using Generalized Advantage Estimation	Jun 8, 2015	continuous-controlContinuous Control	CodeCode Available	0	5

Show:10 25 50

← PrevPage 5 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified