Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1161 papers

Title	Date	Tasks	Status
Fully Distributed Actor-Critic Architecture for Multitask Deep Reinforcement Learning	Oct 23, 2021	continuous-controlContinuous Control	—Unverified
Continuous Control for Automated Lane Change Behavior Based on Deep Deterministic Policy Gradient Algorithm	Jun 5, 2019	continuous-controlContinuous Control	—Unverified
Autoregressive Dynamics Models for Offline Policy Evaluation and Optimization	Apr 28, 2021	continuous-controlContinuous Control	—Unverified
Continual Reinforcement Learning with Diversity Exploration and Adversarial Self-Correction	Jun 21, 2019	Autonomous Drivingcontinuous-control	—Unverified
AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization	Jun 5, 2025	continuous-controlContinuous Control	—Unverified
A Minimaximalist Approach to Reinforcement Learning from Human Feedback	Jan 8, 2024	continuous-controlContinuous Control	—Unverified
Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement Learning Using Unique Experiences	Feb 5, 2024	continuous-controlContinuous Control	—Unverified
Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations	Jul 22, 2023	continuous-controlContinuous Control	—Unverified
Generalised Policy Improvement with Geometric Policy Composition	Jun 17, 2022	continuous-controlContinuous Control	—Unverified
Global Convergence of Policy Gradient Methods for the Linear Quadratic Regulator	Jan 15, 2018	continuous-controlContinuous Control	—Unverified
Hamiltonian Policy Optimization	Feb 28, 2021	continuous-controlContinuous Control	—Unverified
Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation	May 28, 2024	continuous-controlContinuous Control	—Unverified
Autonomous Learning of Features for Control: Experiments with Embodied and Situated Agents	Sep 15, 2020	continuous-controlContinuous Control	—Unverified
Fighting Fire with Fire: Avoiding DNN Shortcuts through Priming	Jun 22, 2022	Autonomous DrivingClassification	—Unverified
Consolidation via Policy Information Regularization in Deep RL for Multi-Agent Games	Nov 23, 2020	Continual Learningcontinuous-control	—Unverified
AMBER: Adaptive Multi-Batch Experience Replay for Continuous Action Control	Oct 12, 2017	continuous-controlContinuous Control	—Unverified
Fingerprint Policy Optimisation for Robust Reinforcement Learning	May 27, 2018	Bayesian OptimisationContinuous Control	—Unverified
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer	Mar 13, 2025	continuous-controlContinuous Control	—Unverified
Automating Curriculum Learning for Reinforcement Learning using a Skill-Based Bayesian Network	Feb 21, 2025	continuous-controlContinuous Control	—Unverified
Automating Control of Overestimation Bias for Reinforcement Learning	Oct 26, 2021	Continuous ControlQ-Learning	—Unverified
Conservation Voltage Reduction (CVR) via Two-Timescale Control in Unbalanced Power Distribution Systems	Apr 24, 2020	continuous-controlContinuous Control	—Unverified
All-Action Policy Gradient Methods: A Numerical Integration Approach	Oct 21, 2019	Allcontinuous-control	—Unverified
Fight fire with fire: countering bad shortcuts in imitation learning with good shortcuts	Sep 29, 2021	Autonomous Drivingcontinuous-control	—Unverified
Finite-time Analysis of Approximate Policy Iteration for the Linear Quadratic Regulator	May 30, 2019	continuous-controlContinuous Control	—Unverified
CoMPS: Continual Meta Policy Search	Dec 8, 2021	Continual Learningcontinuous-control	—Unverified
Augmented Replay Memory in Reinforcement Learning With Continuous Control	Dec 29, 2019	continuous-controlContinuous Control	—Unverified
Compositional Concept-Based Neuron-Level Interpretability for Deep Reinforcement Learning	Feb 2, 2025	continuous-controlContinuous Control	—Unverified
Wasserstein Barycenter Soft Actor-Critic	Jun 11, 2025	continuous-controlContinuous Control	—Unverified
Composing Complex Skills by Learning Transition Policies with Proximity Reward Induction	May 1, 2019	continuous-controlContinuous Control	—Unverified
Compatible Natural Gradient Policy Search	Feb 7, 2019	continuous-controlContinuous Control	—Unverified
Augmented Random Search for Quadcopter Control: An alternative to Reinforcement Learning	Nov 28, 2019	continuous-controlContinuous Control	—Unverified
Comparing Deep Reinforcement Learning and Evolutionary Methods in Continuous Control	Nov 30, 2017	continuous-controlContinuous Control	—Unverified
Improving Reinforcement Learning Efficiency with Auxiliary Tasks in Non-Visual Environments: A Comparison	Oct 6, 2023	Continuous Controlreinforcement-learning	—Unverified
Attraction-Repulsion Actor-Critic for Continuous Control Reinforcement Learning	Sep 17, 2019	continuous-controlContinuous Control	—Unverified
Adaptive Experience Selection for Policy Gradient	Feb 17, 2020	continuous-controlContinuous Control	—Unverified
FiDi-RL: Incorporating Deep Reinforcement Learning with Finite-Difference Policy Search for Efficient Learning of Continuous Control	Jul 1, 2019	continuous-controlContinuous Control	—Unverified
First Go, then Post-Explore: the Benefits of Post-Exploration in Intrinsic Motivation	Dec 6, 2022	continuous-controlContinuous Control	—Unverified
Attitude Control of Highly Maneuverable Aircraft Using an Improved Q-learning	Oct 22, 2022	continuous-controlContinuous Control	—Unverified
CoMic: Co-Training and Mimicry for Reusable Skills	Jan 1, 2020	continuous-controlContinuous Control	—Unverified
Faster Reinforcement Learning with Value Target Lower Bounding	Sep 29, 2021	Atari Gamescontinuous-control	—Unverified
Combining Model-based and Model-free RL via Multi-step Control Variates	Jan 1, 2018	continuous-controlContinuous Control	—Unverified
Combine PPO with NES to Improve Exploration	May 23, 2019	continuous-controlContinuous Control	—Unverified
DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning	Feb 25, 2024	continuous-controlContinuous Control	—Unverified
Aggressive Q-Learning with Ensembles: Achieving Both High Sample Efficiency and High Asymptotic Performance	Nov 17, 2021	continuous-controlContinuous Control	—Unverified
Fast Lifelong Adaptive Inverse Reinforcement Learning from Demonstrations	Sep 24, 2022	Continuous Controlreinforcement-learning	—Unverified
COLREG-Compliant Collision Avoidance for Unmanned Surface Vehicle using Deep Reinforcement Learning	Jun 16, 2020	Autonomous VehiclesCollision Avoidance	—Unverified
Edge Delayed Deep Deterministic Policy Gradient: efficient continuous control for edge scenarios	Dec 9, 2024	continuous-controlContinuous Control	—Unverified
Effects of Conservatism on Offline Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
Compactly Restrictable Metric Policy Optimization Problems	Jul 12, 2022	continuous-controlContinuous Control	—Unverified
Dynamic Modeling and Control for an Offshore Semisubmersible Floating Wind Turbine	Jun 17, 2024	continuous-controlContinuous Control	—Unverified

Show:10 25 50

← PrevPage 7 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified