Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 701–750 of 1161 papers

Title	Date	Tasks	Status
NADPEx: An on-policy temporally consistent exploration method for deep reinforcement learning	Dec 21, 2018	continuous-controlContinuous Control	—Unverified
SFP: State-free Priors for Exploration in Off-Policy Reinforcement Learning	May 26, 2022	continuous-controlContinuous Control	—Unverified
What About Taking Policy as Input of Value Function: Policy-extended Value Function Approximator	Sep 28, 2020	continuous-controlContinuous Control	—Unverified
The Cross-environment Hyperparameter Setting Benchmark for Reinforcement Learning	Jul 26, 2024	continuous-controlContinuous Control	—Unverified
Nested Mixture of Experts: Cooperative and Competitive Learning of Hybrid Dynamical System	Nov 20, 2020	continuous-controlContinuous Control	—Unverified
Neural Architecture Evolution in Deep Reinforcement Learning for Continuous Control	Oct 28, 2019	continuous-controlContinuous Control	—Unverified
Neural Lyapunov Model Predictive Control	Sep 28, 2020	continuous-controlContinuous Control	—Unverified
Neural Simplex Architecture	Aug 1, 2019	continuous-controlContinuous Control	—Unverified
NoiseNCA: Noisy Seed Improves Spatio-Temporal Continuity of Neural Cellular Automata	Apr 9, 2024	continuous-controlContinuous Control	—Unverified
Noisy Spiking Actor Network for Exploration	Mar 7, 2024	continuous-controlContinuous Control	—Unverified
Normality-Guided Distributional Reinforcement Learning for Continuous Control	Aug 28, 2022	continuous-controlContinuous Control	—Unverified
Wasserstein Barycenter Soft Actor-Critic	Jun 11, 2025	continuous-controlContinuous Control	—Unverified
Obstacle Avoidance for UAS in Continuous Action Space Using Deep Reinforcement Learning	Nov 13, 2021	continuous-controlContinuous Control	—Unverified
ODE-based Recurrent Model-free Reinforcement Learning for POMDPs	Sep 25, 2023	continuous-controlContinuous Control	—Unverified
CAPACITY-LIMITED REINFORCEMENT LEARNING: APPLICATIONS IN DEEP ACTOR-CRITIC METHODS FOR CONTINUOUS CONTROL	Sep 25, 2019	continuous-controlContinuous Control	—Unverified
Off-Dynamics Inverse Reinforcement Learning from Hetero-Domain	Oct 21, 2021	continuous-controlContinuous Control	—Unverified
Adversarial Imitation Learning from Video using a State Observer	Feb 1, 2022	continuous-controlContinuous Control	—Unverified
Offline Actor-Critic Reinforcement Learning Scales to Large Models	Feb 8, 2024	continuous-controlContinuous Control	—Unverified
Offline Imitation Learning with Suboptimal Demonstrations via Relaxed Distribution Matching	Mar 5, 2023	continuous-controlContinuous Control	—Unverified
Offline Learning from Demonstrations and Unlabeled Experience	Nov 27, 2020	continuous-controlContinuous Control	—Unverified
Offline Multi-agent Reinforcement Learning via Score Decomposition	May 9, 2025	continuous-controlContinuous Control	—Unverified
Offline Policy Optimization in RL with Variance Regularizaton	Dec 29, 2022	continuous-controlContinuous Control	—Unverified
What Matters for Adversarial Imitation Learning?	Jun 1, 2021	continuous-controlContinuous Control	—Unverified
Offline Policy Optimization with Variance Regularization	Jan 1, 2021	continuous-controlContinuous Control	—Unverified
Offline Reinforcement Learning as Anti-Exploration	Jun 11, 2021	continuous-controlContinuous Control	—Unverified
What Matters for On-Policy Deep Actor-Critic Methods? A Large-Scale Study	Jan 1, 2021	Attributecontinuous-control	—Unverified
Offline Reinforcement Learning with Soft Behavior Regularization	Oct 14, 2021	continuous-controlContinuous Control	—Unverified
Can Reinforcement Learning for Continuous Control Generalize Across Physics Engines?	Oct 27, 2020	continuous-controlContinuous Control	—Unverified
The Gap Between Model-Based and Model-Free Methods on the Linear Quadratic Regulator: An Asymptotic Viewpoint	Dec 9, 2018	continuous-controlContinuous Control	—Unverified
Off-Policy Correction for Deep Deterministic Policy Gradient Algorithms via Batch Prioritized Experience Replay	Nov 2, 2021	Computational Efficiencycontinuous-control	—Unverified
CACTO: Continuous Actor-Critic with Trajectory Optimization -- Towards global optimality	Nov 12, 2022	continuous-controlContinuous Control	—Unverified
The Intentional Unintentional Agent: Learning to Solve Many Continuous Control Tasks Simultaneously	Jul 11, 2017	continuous-controlContinuous Control	—Unverified
Off-policy Maximum Entropy Reinforcement Learning : Soft Actor-Critic with Advantage Weighted Mixture Policy(SAC-AWMP)	Feb 7, 2020	continuous-controlContinuous Control	—Unverified
Off-Policy Policy Gradient Algorithms by Constraining the State Distribution Shift	Nov 16, 2019	continuous-controlContinuous Control	—Unverified
Off-policy Reinforcement Learning with Optimistic Exploration and Distribution Correction	Oct 22, 2021	continuous-controlContinuous Control	—Unverified
Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning	Jul 24, 2023	continuous-controlContinuous Control	—Unverified
oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally Extended Actions	Feb 20, 2020	continuous-controlContinuous Control	—Unverified
Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains	May 12, 2025	continuous-controlContinuous Control	—Unverified
Mind the Model, Not the Agent: The Primacy Bias in Model-based RL	Oct 23, 2023	continuous-controlContinuous Control	—Unverified
On the importance of data collection for training general goal-reaching policies	Nov 7, 2022	continuous-controlContinuous Control	—Unverified
On Inductive Biases in Deep Reinforcement Learning	Jul 5, 2019	continuous-controlContinuous Control	—Unverified
On learning history based policies for controlling Markov decision processes	Nov 6, 2022	continuous-controlContinuous Control	—Unverified
Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning and Autoregression	Oct 17, 2023	continuous-controlContinuous Control	—Unverified
Online Hyper-parameter Tuning in Off-policy Learning via Evolutionary Strategies	Jun 13, 2020	continuous-controlContinuous Control	—Unverified
Broad Critic Deep Actor Reinforcement Learning for Continuous Control	Nov 24, 2024	Computational Efficiencycontinuous-control	—Unverified
Online Policy Learning from Offline Preferences	Mar 15, 2024	continuous-controlContinuous Control	—Unverified
Time-Constrained Robust MDPs	Jun 12, 2024	continuous-controlContinuous Control	—Unverified
Towards Tractable Optimism in Model-Based Reinforcement Learning	Jun 21, 2020	continuous-controlContinuous Control	—Unverified
Policy Optimization Reinforcement Learning with Entropy Regularization	Dec 2, 2019	Continuous Controlreinforcement-learning	—Unverified
On-Policy Robot Imitation Learning from a Converging Supervisor	Jul 8, 2019	continuous-controlContinuous Control	—Unverified

Show:10 25 50

← PrevPage 15 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified