Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 451–500 of 1161 papers

Title	Date	Tasks	Status	Hype
Frustratingly Easy Regularization on Representation Can Boost Deep Reinforcement Learning	May 29, 2022	Continuous ControlDeep Reinforcement Learning	—Unverified	0
Task-Agnostic Continual Reinforcement Learning: Gaining Insights and Overcoming Challenges	May 28, 2022	Continual LearningContinuous Control	CodeCode Available	1
Multi-Source Transfer Learning for Deep Model-Based Reinforcement Learning	May 28, 2022	Continuous ControlModel-based Reinforcement Learning	—Unverified	0
MyoSuite -- A contact-rich simulation suite for musculoskeletal motor control	May 26, 2022	continuous-controlContinuous Control	CodeCode Available	3
SFP: State-free Priors for Exploration in Off-Policy Reinforcement Learning	May 26, 2022	continuous-controlContinuous Control	—Unverified	0
Skill Machines: Temporal Logic Skill Composition in Reinforcement Learning	May 25, 2022	continuous-controlContinuous Control	CodeCode Available	0
Efficient Reinforcement Learning from Demonstration Using Local Ensemble and Reparameterization with Split and Merge of Expert Policies	May 23, 2022	continuous-controlContinuous Control	—Unverified	0
IL-flOw: Imitation Learning from Observation using Normalizing Flows	May 19, 2022	continuous-controlContinuous Control	—Unverified	0
Neighborhood Mixup Experience Replay: Local Convex Interpolation for Improved Sample Efficiency in Continuous Control Tasks	May 18, 2022	continuous-controlContinuous Control	CodeCode Available	0
A cGAN Ensemble-based Uncertainty-aware Surrogate Model for Offline Model-based Optimization in Industrial Control Problems	May 15, 2022	continuous-controlContinuous Control	—Unverified	0
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning	May 11, 2022	continuous-controlContinuous Control	CodeCode Available	0
Simultaneous Double Q-learning with Conservative Advantage Learning for Actor-Critic Methods	May 8, 2022	continuous-controlContinuous Control	CodeCode Available	0
Skill-based Meta-Reinforcement Learning	Apr 25, 2022	continuous-controlContinuous Control	—Unverified	0
Revisiting Gaussian mixture critics in off-policy reinforcement learning: a sample-based approach	Apr 21, 2022	continuous-controlContinuous Control	—Unverified	0
SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics	Apr 20, 2022	continuous-controlContinuous Control	—Unverified	0
Evolving Pareto-Optimal Actor-Critic Algorithms for Generalizability and Stability	Apr 8, 2022	continuous-controlContinuous Control	—Unverified	0
Automating Reinforcement Learning with Example-based Resets	Apr 5, 2022	continuous-controlContinuous Control	CodeCode Available	0
Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization	Apr 4, 2022	continuous-controlContinuous Control	—Unverified	0
Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning	Mar 24, 2022	continuous-controlContinuous Control	—Unverified	0
Temporal Abstractions-Augmented Temporally Contrastive Learning: An Alternative to the Laplacian in RL	Mar 21, 2022	continuous-controlContinuous Control	—Unverified	0
Multitask Neuroevolution for Reinforcement Learning with Long and Short Episodes	Mar 21, 2022	continuous-controlContinuous Control	—Unverified	0
Multiscale Sensor Fusion and Continuous Control with Neural CDEs	Mar 16, 2022	continuous-controlContinuous Control	—Unverified	0
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL	Mar 16, 2022	continuous-controlContinuous Control	CodeCode Available	1
Temporal Difference Learning for Model Predictive Control	Mar 9, 2022	continuous-controlContinuous Control	CodeCode Available	2
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation	Feb 28, 2022	continuous-controlContinuous Control	—Unverified	0
Policy Learning and Evaluation with Randomized Quasi-Monte Carlo	Feb 16, 2022	continuous-controlContinuous Control	—Unverified	0
Safe Reinforcement Learning by Imagining the Near Future	Feb 15, 2022	continuous-controlContinuous Control	CodeCode Available	1
Strategy Discovery and Mixture in Lifelong Learning from Heterogeneous Demonstration	Feb 14, 2022	continuous-controlContinuous Control	—Unverified	0
Robust Learning from Observation with Model Misspecification	Feb 12, 2022	continuous-controlContinuous Control	CodeCode Available	0
Uncertainty Aware System Identification with Universal Policies	Feb 11, 2022	Bayesian Optimisationcontinuous-control	—Unverified	0
Imitation Learning by State-Only Distribution Matching	Feb 9, 2022	continuous-controlContinuous Control	CodeCode Available	0
Bingham Policy Parameterization for 3D Rotations in Reinforcement Learning	Feb 8, 2022	continuous-controlContinuous Control	CodeCode Available	1
Approximate Policy Iteration with Bisimulation Metrics	Feb 6, 2022	Continuous ControlRepresentation Learning	CodeCode Available	0
Exploration with Multi-Sample Target Values for Distributional Reinforcement Learning	Feb 6, 2022	continuous-controlContinuous Control	—Unverified	0
Adversarially Trained Actor Critic for Offline Reinforcement Learning	Feb 5, 2022	continuous-controlContinuous Control	CodeCode Available	1
Learning Interpretable, High-Performing Policies for Autonomous Driving	Feb 4, 2022	Autonomous DrivingAutonomous Vehicles	CodeCode Available	1
Imitation Learning by Estimating Expertise of Demonstrators	Feb 2, 2022	continuous-controlContinuous Control	CodeCode Available	1
Adversarial Imitation Learning from Video using a State Observer	Feb 1, 2022	continuous-controlContinuous Control	—Unverified	0
You May Not Need Ratio Clipping in PPO	Jan 31, 2022	continuous-controlContinuous Control	—Unverified	0
DNS: Determinantal Point Process Based Neural Network Sampler for Ensemble Reinforcement Learning	Jan 31, 2022	continuous-controlContinuous Control	CodeCode Available	0
Zeroth-Order Actor-Critic: An Evolutionary Framework for Sequential Decision Problems	Jan 29, 2022	continuous-controlContinuous Control	CodeCode Available	0
Robust Imitation Learning from Corrupted Demonstrations	Jan 29, 2022	continuous-controlContinuous Control	—Unverified	0
Overcoming Exploration: Deep Reinforcement Learning for Continuous Control in Cluttered Environments from Temporal Logic Specifications	Jan 28, 2022	continuous-controlContinuous Control	—Unverified	0
State-Conditioned Adversarial Subgoal Generation	Jan 24, 2022	continuous-controlContinuous Control	—Unverified	0
Recursive Least Squares Advantage Actor-Critic Algorithms	Jan 15, 2022	Computational Efficiencycontinuous-control	—Unverified	0
Evolutionary Action Selection for Gradient-based Policy Learning	Jan 12, 2022	continuous-controlContinuous Control	—Unverified	0
Sample Efficient Deep Reinforcement Learning via Uncertainty Estimation	Jan 5, 2022	continuous-controlContinuous Control	CodeCode Available	1
Toward Causal-Aware RL: State-Wise Action-Refined Temporal Difference	Jan 2, 2022	continuous-controlContinuous Control	CodeCode Available	0
A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning	Jan 1, 2022	continuous-controlContinuous Control	—Unverified	0
Single-Shot Pruning for Offline Reinforcement Learning	Dec 31, 2021	continuous-controlContinuous Control	—Unverified	0

Show:10 25 50

← PrevPage 10 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified