Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 551–600 of 1161 papers

Title	Date	Tasks	Status	Hype
Offline Reinforcement Learning with Soft Behavior Regularization	Oct 14, 2021	continuous-controlContinuous Control	—Unverified	0
Planning from Pixels in Environments with Combinatorially Hard Search Spaces	Oct 12, 2021	continuous-controlContinuous Control	CodeCode Available	1
Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineering beyond Reward Maximization	Oct 10, 2021	continuous-controlContinuous Control	—Unverified	0
Learning Pessimism for Robust and Efficient Off-Policy Reinforcement Learning	Oct 7, 2021	Continuous ControlDeep Reinforcement Learning	—Unverified	0
Cross-Domain Imitation Learning via Optimal Transport	Oct 7, 2021	continuous-controlContinuous Control	CodeCode Available	1
Evaluating model-based planning and planner amortization for continuous control	Oct 7, 2021	continuous-controlContinuous Control	—Unverified	0
Continuous-Time Fitted Value Iteration for Robust Policies	Oct 5, 2021	continuous-controlContinuous Control	CodeCode Available	1
Meta Attention For Off-Policy Actor-Critic	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Graph-Enhanced Exploration for Goal-oriented Reinforcement Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
State-Only Imitation Learning by Trajectory Distribution Matching	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Reward Shifting for Optimistic Exploration and Conservative Exploitation	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Evolutionary Diversity Optimization with Clustering-based Selection for Reinforcement Learning	Sep 29, 2021	Clusteringcontinuous-control	—Unverified	0
Multi-batch Reinforcement Learning via Sample Transfer and Imitation Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Imitation Learning from Pixel Observations for Continuous Control	Sep 29, 2021	Benchmarkingcontinuous-control	—Unverified	0
Gradient Information Matters in Policy Optimization by Back-propagating through Model	Sep 29, 2021	continuous-controlContinuous Control	CodeCode Available	0
Fight fire with fire: countering bad shortcuts in imitation learning with good shortcuts	Sep 29, 2021	Autonomous Drivingcontinuous-control	—Unverified	0
Why so pessimistic? Estimating uncertainties for offline RL through ensembles, and why their independence matters.	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Decentralized Cross-Entropy Method for Model-Based Reinforcement Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Faster Reinforcement Learning with Value Target Lower Bounding	Sep 29, 2021	Atari Gamescontinuous-control	—Unverified	0
Evaluating Robustness of Cooperative MARL	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Distributional Decision Transformer for Hindsight Information Matching	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Generalizing Successor Features to continuous domains for Multi-task Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Joint Self-Supervised Learning for Vision-based Reinforcement Learning	Sep 29, 2021	Autonomous Drivingcontinuous-control	—Unverified	0
Transformers are Meta-Reinforcement Learners	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
An Experimental Design Perspective on Exploration in Reinforcement Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
SPLID: Self-Imitation Policy Learning through Iterative Distillation	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Effects of Conservatism on Offline Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Improving Safety in Deep Reinforcement Learning using Unsupervised Action Planning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified	0
Exploring More When It Needs in Deep Reinforcement Learning	Sep 28, 2021	continuous-controlContinuous Control	—Unverified	0
Improved Soft Actor-Critic: Mixing Prioritized Off-Policy Samples with On-Policy Experience	Sep 24, 2021	continuous-controlContinuous Control	—Unverified	0
Parameter-free Reduction of the Estimation Bias in Deep Reinforcement Learning for Deterministic Policy Gradients	Sep 24, 2021	continuous-controlContinuous Control	CodeCode Available	0
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods	Sep 22, 2021	continuous-controlContinuous Control	CodeCode Available	0
Federated Ensemble Model-based Reinforcement Learning in Edge Computing	Sep 12, 2021	Autonomous Drivingcontinuous-control	—Unverified	0
Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning	Sep 8, 2021	Adversarial Attackcontinuous-control	—Unverified	0
ADER:Adapting between Exploration and Robustness for Actor-Critic Methods	Sep 8, 2021	continuous-controlContinuous Control	—Unverified	0
Error Controlled Actor-Critic	Sep 6, 2021	continuous-controlContinuous Control	CodeCode Available	0
Photonic Quantum Policy Learning in OpenAI Gym	Aug 29, 2021	BIG-bench Machine Learningcontinuous-control	—Unverified	0
HAC Explore: Accelerating Exploration with Hierarchical Reinforcement Learning	Aug 12, 2021	continuous-controlContinuous Control	—Unverified	0
Imitation Learning by Reinforcement Learning	Aug 10, 2021	continuous-controlContinuous Control	CodeCode Available	0
Value-Based Reinforcement Learning for Continuous Control Robotic Manipulation in Multi-Task Sparse Reward Settings	Jul 28, 2021	continuous-controlContinuous Control	—Unverified	0
Mastering Visual Continuous Control: Improved Data-Augmented Reinforcement Learning	Jul 20, 2021	continuous-controlContinuous Control	CodeCode Available	1
Shortest-Path Constrained Reinforcement Learning for Sparse Reward Tasks	Jul 13, 2021	continuous-controlContinuous Control	CodeCode Available	1
Towards Better Laplacian Representation in Reinforcement Learning with Generalized Graph Drawing	Jul 12, 2021	continuous-controlContinuous Control	CodeCode Available	1
Cautious Actor-Critic	Jul 12, 2021	continuous-controlContinuous Control	—Unverified	0
Coordinate-wise Control Variates for Deep Policy Gradients	Jul 11, 2021	continuous-controlContinuous Control	—Unverified	0
Imitation by Predicting Observations	Jul 8, 2021	continuous-controlContinuous Control	—Unverified	0
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation	Jul 5, 2021	continuous-controlContinuous Control	CodeCode Available	1
SA-MATD3:Self-attention-based multi-agent continuous control method in cooperative environments	Jul 1, 2021	continuous-controlContinuous Control	—Unverified	0
Continuous Control with Deep Reinforcement Learning for Autonomous Vessels	Jun 27, 2021	Collision Avoidancecontinuous-control	—Unverified	0
Model-Advantage and Value-Aware Models for Model-Based Reinforcement Learning: Bridging the Gap in Theory and Practice	Jun 26, 2021	continuous-controlContinuous Control	CodeCode Available	0

Show:10 25 50

← PrevPage 12 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified