Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1161 papers

Title	Date	Tasks	Status	Score
Algorithmic Framework for Model-based Deep Reinforcement Learning with Theoretical Guarantees	Jul 10, 2018	continuous-controlContinuous Control	CodeCode Available	5
Mapping Navigation Instructions to Continuous Control Actions with Position-Visitation Prediction	Nov 10, 2018	continuous-controlContinuous Control	CodeCode Available	5
Memory-based control with recurrent neural networks	Dec 14, 2015	continuous-controlContinuous Control	CodeCode Available	5
Model-Advantage and Value-Aware Models for Model-Based Reinforcement Learning: Bridging the Gap in Theory and Practice	Jun 26, 2021	continuous-controlContinuous Control	CodeCode Available	5
Loaded DiCE: Trading off Bias and Variance in Any-Order Score Function Estimators for Reinforcement Learning	Sep 23, 2019	continuous-controlContinuous Control	CodeCode Available	5
Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy	Jul 25, 2022	continuous-controlContinuous Control	CodeCode Available	5
Loaded DiCE: Trading off Bias and Variance in Any-Order Score Function Gradient Estimators for Reinforcement Learning	Dec 1, 2019	continuous-controlContinuous Control	CodeCode Available	5
ED2: Environment Dynamics Decomposition World Models for Continuous Control	Dec 6, 2021	continuous-controlContinuous Control	CodeCode Available	5
Learning with Expert Abstractions for Efficient Multi-Task Continuous Control	Mar 19, 2025	continuous-controlContinuous Control	CodeCode Available	5
Locally Persistent Exploration in Continuous Control Tasks with Sparse Rewards	Dec 26, 2020	continuous-controlContinuous Control	CodeCode Available	5
Learning State Abstractions for Transfer in Continuous Control	Feb 8, 2020	continuous-controlContinuous Control	CodeCode Available	5
Learning Stabilizable Nonlinear Dynamics with Contraction-Based Regularization	Jul 29, 2019	continuous-controlContinuous Control	CodeCode Available	5
Learning State Representations via Retracing in Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available	5
COBRA: Data-Efficient Model-Based RL through Unsupervised Object Discovery and Curiosity-Driven Exploration	May 22, 2019	continuous-controlContinuous Control	CodeCode Available	5
DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty	Jun 14, 2025	continuous-controlContinuous Control	CodeCode Available	5
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations	Apr 1, 2020	continuous-controlContinuous Control	CodeCode Available	5
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents	Feb 6, 2024	continuous-controlContinuous Control	CodeCode Available	5
Asynchronous Episodic Deep Deterministic Policy Gradient: Towards Continuous Control in Computationally Complex Environments	Mar 3, 2019	continuous-controlContinuous Control	CodeCode Available	5
Learning model-based planning from scratch	Jul 19, 2017	continuous-controlContinuous Control	CodeCode Available	5
Learning Provably Stabilizing Neural Controllers for Discrete-Time Stochastic Systems	Oct 11, 2022	continuous-controlContinuous Control	CodeCode Available	5
Learning Continuous Control Policies by Stochastic Value Gradients	Oct 30, 2015	continuous-controlContinuous Control	CodeCode Available	5
AFU: Actor-Free critic Updates in off-policy RL for continuous control	Apr 24, 2024	continuous-controlContinuous Control	CodeCode Available	5
Learning Continuous Control Policies for Information-Theoretic Active Perception	Sep 26, 2022	continuous-controlContinuous Control	CodeCode Available	5
Learning Action-Transferable Policy with Action Embedding	Sep 5, 2019	Continuous ControlReinforcement Learning	CodeCode Available	5
Adaptive Diffusion Policy Optimization for Robotic Manipulation	May 13, 2025	continuous-controlContinuous Control	CodeCode Available	5
Learning-Based Model Predictive Control for Piecewise Affine Systems with Feasibility Guarantees	Nov 30, 2024	continuous-controlContinuous Control	CodeCode Available	5
DNS: Determinantal Point Process Based Neural Network Sampler for Ensemble Reinforcement Learning	Jan 31, 2022	continuous-controlContinuous Control	CodeCode Available	5
Learning Belief Representations for Imitation Learning in POMDPs	Jun 22, 2019	continuous-controlContinuous Control	CodeCode Available	5
Clipped Action Policy Gradient	Feb 21, 2018	continuous-controlContinuous Control	CodeCode Available	5
C-Learning: Horizon-Aware Cumulative Accessibility Estimation	Nov 24, 2020	continuous-controlContinuous Control	CodeCode Available	5
Adversarial Skill Networks: Unsupervised Robot Skill Learning from Video	Oct 21, 2019	continuous-controlContinuous Control	CodeCode Available	5
Learning Bellman Complete Representations for Offline Policy Evaluation	Jul 12, 2022	continuous-controlContinuous Control	CodeCode Available	5
Diversity-Enriched Option-Critic	Nov 4, 2020	continuous-controlContinuous Control	CodeCode Available	5
Driving in Dense Traffic with Model-Free Reinforcement Learning	Sep 15, 2019	continuous-controlContinuous Control	CodeCode Available	5
Improving Value Estimation Critically Enhances Vanilla Policy Gradient	May 25, 2025	continuous-controlContinuous Control	CodeCode Available	5
Learning Diverse Options via InfoMax Termination Critic	Oct 6, 2020	Continuous ControlDiversity	CodeCode Available	5
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning	May 11, 2022	continuous-controlContinuous Control	CodeCode Available	5
Dual Policy Distillation	Jun 7, 2020	continuous-controlContinuous Control	CodeCode Available	5
DualSMC: Tunneling Differentiable Filtering and Planning under Continuous POMDPs	Sep 28, 2019	Continuous Control	CodeCode Available	5
Collaborative Evolutionary Reinforcement Learning	May 2, 2019	continuous-controlContinuous Control	CodeCode Available	5
A Tour of Reinforcement Learning: The View from Continuous Control	Jun 25, 2018	continuous-controlContinuous Control	CodeCode Available	5
Dynamics-aware Embeddings	Aug 25, 2019	continuous-controlContinuous Control	CodeCode Available	5
Imitation Learning by State-Only Distribution Matching	Feb 9, 2022	continuous-controlContinuous Control	CodeCode Available	5
Information Theoretic Regret Bounds for Online Nonlinear Control	Jun 22, 2020	continuous-controlContinuous Control	CodeCode Available	5
A Simple Decentralized Cross-Entropy Method	Dec 16, 2022	continuous-controlContinuous Control	CodeCode Available	5
CIE: Controlling Language Model Text Generations Using Continuous Signals	May 19, 2025	continuous-controlContinuous Control	CodeCode Available	5
Leveraging exploration in off-policy algorithms via normalizing flows	May 16, 2019	continuous-controlContinuous Control	CodeCode Available	5
Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial Imitation Learning	Jun 28, 2020	AllContinuous Control	CodeCode Available	5
Efficacy of Modern Neuro-Evolutionary Strategies for Continuous Control Optimization	Dec 11, 2019	continuous-controlContinuous Control	CodeCode Available	5
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning	Mar 7, 2025	continuous-controlContinuous Control	CodeCode Available	5

Show:10 25 50

← PrevPage 7 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified