Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 1161 papers

Title	Date	Tasks	Status
Hierarchical State Abstraction Based on Structural Information Principles	Apr 24, 2023	continuous-controlContinuous Control	CodeCode Available
Hierarchical Reinforcement Learning via Advantage-Weighted Information Maximization	Jan 5, 2019	continuous-controlContinuous Control	CodeCode Available
Discovering Diverse Solutions in Deep Reinforcement Learning by Maximizing State-Action-Based Mutual Information	Mar 12, 2021	Continuous ControlDeep Reinforcement Learning	CodeCode Available
Hallucinated Adversarial Control for Conservative Offline Policy Evaluation	Mar 2, 2023	continuous-controlContinuous Control	CodeCode Available
Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation	May 20, 2025	Computational Efficiencycontinuous-control	CodeCode Available
Primal Wasserstein Imitation Learning	Jun 8, 2020	continuous-controlContinuous Control	CodeCode Available
Learning model-based planning from scratch	Jul 19, 2017	continuous-controlContinuous Control	CodeCode Available
Diagnosing Bottlenecks in Deep Q-learning Algorithms	Feb 26, 2019	continuous-controlContinuous Control	CodeCode Available
Guided Policy Optimization under Partial Observability	May 21, 2025	continuous-controlContinuous Control	CodeCode Available
Context-Based Soft Actor Critic for Environments with Non-stationary Dynamics	May 7, 2021	continuous-controlContinuous Control	CodeCode Available
Conservative Bayesian Model-Based Value Expansion for Offline Policy Optimization	Oct 7, 2022	continuous-controlContinuous Control	CodeCode Available
Behaviour Distillation	Jun 21, 2024	Continual Learningcontinuous-control	CodeCode Available
Sample-Efficient Imitation Learning via Generative Adversarial Nets	Sep 6, 2018	continuous-controlContinuous Control	CodeCode Available
TaSIL: Taylor Series Imitation Learning	May 30, 2022	continuous-controlContinuous Control	CodeCode Available
Guided Exploration in Reinforcement Learning via Monte Carlo Critic Optimization	Jun 25, 2022	continuous-controlContinuous Control	CodeCode Available
Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations	Apr 1, 2020	continuous-controlContinuous Control	CodeCode Available
Sample-efficient Real-time Planning with Curiosity Cross-Entropy Method and Contrastive Learning	Mar 7, 2023	continuous-controlContinuous Control	CodeCode Available
Learning Stabilizable Nonlinear Dynamics with Contraction-Based Regularization	Jul 29, 2019	continuous-controlContinuous Control	CodeCode Available
Learning State Abstractions for Transfer in Continuous Control	Feb 8, 2020	continuous-controlContinuous Control	CodeCode Available
Learning State Representations via Retracing in Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available
Bayesian Policy Gradients via Alpha Divergence Dropout Inference	Dec 6, 2017	continuous-controlContinuous Control	CodeCode Available
CompILE: Compositional Imitation Learning and Execution	Dec 4, 2018	continuous-controlContinuous Control	CodeCode Available
A novel DDPG method with prioritized experience replay	Oct 1, 2017	continuous-controlContinuous Control	CodeCode Available
BaRC: Backward Reachability Curriculum for Robotic Reinforcement Learning	Jun 16, 2018	continuous-controlContinuous Control	CodeCode Available
Guide Actor-Critic for Continuous Control	May 22, 2017	continuous-controlContinuous Control	CodeCode Available
Proximal Policy Distillation	Jul 21, 2024	continuous-controlContinuous Control	CodeCode Available
Defending Observation Attacks in Deep Reinforcement Learning via Detection and Denoising	Jun 14, 2022	continuous-controlContinuous Control	CodeCode Available
Gradient Information Matters in Policy Optimization by Back-propagating through Model	Sep 29, 2021	continuous-controlContinuous Control	CodeCode Available
Generative Actor-Critic: An Off-policy Algorithm Using the Push-forward Model	May 8, 2021	continuous-controlContinuous Control	CodeCode Available
TEAC: Intergrating Trust Region and Max Entropy Actor Critic for Continuous Control	Jan 1, 2021	continuous-controlContinuous Control	CodeCode Available
Which Model to Trust: Assessing the Influence of Models on the Performance of Reinforcement Learning Algorithms for Continuous Control Tasks	Oct 25, 2021	Benchmarkingcontinuous-control	CodeCode Available
Learning with Expert Abstractions for Efficient Multi-Task Continuous Control	Mar 19, 2025	continuous-controlContinuous Control	CodeCode Available
Balancing Value Underestimation and Overestimation with Realistic Actor-Critic	Oct 19, 2021	continuous-controlContinuous Control	CodeCode Available
Leveraging exploration in off-policy algorithms via normalizing flows	May 16, 2019	continuous-controlContinuous Control	CodeCode Available
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning	Mar 7, 2025	continuous-controlContinuous Control	CodeCode Available
Zeroth-Order Actor-Critic: An Evolutionary Framework for Sequential Decision Problems	Jan 29, 2022	continuous-controlContinuous Control	CodeCode Available
Lipschitzness Is All You Need To Tame Off-policy Generative Adversarial Imitation Learning	Jun 28, 2020	AllContinuous Control	CodeCode Available
Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy	Jul 25, 2022	continuous-controlContinuous Control	CodeCode Available
Loaded DiCE: Trading off Bias and Variance in Any-Order Score Function Estimators for Reinforcement Learning	Sep 23, 2019	continuous-controlContinuous Control	CodeCode Available
Loaded DiCE: Trading off Bias and Variance in Any-Order Score Function Gradient Estimators for Reinforcement Learning	Dec 1, 2019	continuous-controlContinuous Control	CodeCode Available
Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction	Feb 28, 2025	continuous-controlContinuous Control	CodeCode Available
Locally Persistent Exploration in Continuous Control Tasks with Sparse Rewards	Dec 26, 2020	continuous-controlContinuous Control	CodeCode Available
Collaborative Evolutionary Reinforcement Learning	May 2, 2019	continuous-controlContinuous Control	CodeCode Available
Optimizing Attention and Cognitive Control Costs Using Temporally-Layered Architectures	May 30, 2023	continuous-controlContinuous Control	CodeCode Available
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents	Feb 6, 2024	continuous-controlContinuous Control	CodeCode Available
Balancing Exploration and Exploitation in Hierarchical Reinforcement Learning via Latent Landmark Graphs	Jul 22, 2023	continuous-controlContinuous Control	CodeCode Available
Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots	Dec 6, 2022	continuous-controlContinuous Control	CodeCode Available
General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States	Jul 4, 2022	continuous-controlContinuous Control	CodeCode Available
Lyapunov-based Safe Policy Optimization for Continuous Control	Jan 28, 2019	continuous-controlContinuous Control	CodeCode Available
Q-Prop: Sample-Efficient Policy Gradient with An Off-Policy Critic	Nov 7, 2016	continuous-controlContinuous Control	CodeCode Available

Show:10 25 50

← PrevPage 20 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified