Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 1161 papers

Title	Date	Tasks	Status	Hype
Mollification Effects of Policy Gradient Methods	May 28, 2024	continuous-controlContinuous Control	—Unverified	0
Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control	May 25, 2024	continuous-controlContinuous Control	CodeCode Available	2
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization	May 25, 2024	continuous-controlContinuous Control	CodeCode Available	2
OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning	May 24, 2024	continuous-controlContinuous Control	CodeCode Available	1
How to Leverage Diverse Demonstrations in Offline Imitation Learning	May 24, 2024	continuous-controlContinuous Control	CodeCode Available	1
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity	May 23, 2024	continuous-controlContinuous Control	CodeCode Available	0
Investigating the Impact of Choice on Deep Reinforcement Learning for Space Controls	May 20, 2024	continuous-controlContinuous Control	—Unverified	0
Learning Future Representation with Synthetic Observations for Sample-efficient Reinforcement Learning	May 20, 2024	continuous-controlContinuous Control	—Unverified	0
The Curse of Diversity in Ensemble-Based Exploration	May 7, 2024	Attributecontinuous-control	CodeCode Available	0
CTD4 -- A Deep Continuous Distributional Actor-Critic Agent with a Kalman Fusion of Multiple Critics	May 4, 2024	continuous-controlContinuous Control	CodeCode Available	0
Implicit Safe Set Algorithm for Provably Safe Reinforcement Learning	May 4, 2024	continuous-controlContinuous Control	—Unverified	0
REBEL: Reinforcement Learning via Regressing Relative Rewards	Apr 25, 2024	continuous-controlContinuous Control	CodeCode Available	2
AFU: Actor-Free critic Updates in off-policy RL for continuous control	Apr 24, 2024	continuous-controlContinuous Control	CodeCode Available	0
Explicit Lipschitz Value Estimation Enhances Policy Robustness Against Perturbation	Apr 22, 2024	continuous-controlContinuous Control	—Unverified	0
On the stability of Lipschitz continuous control problems and its application to reinforcement learning	Apr 20, 2024	continuous-controlContinuous Control	—Unverified	0
Adaptive Regularization of Representation Rank as an Implicit Constraint of Bellman Equation	Apr 19, 2024	continuous-controlContinuous Control	CodeCode Available	0
LTL-Constrained Policy Optimization with Cycle Experience Replay	Apr 17, 2024	continuous-controlContinuous Control	—Unverified	0
Continuous Control Reinforcement Learning: Distributed Distributional DrQ Algorithms	Apr 16, 2024	continuous-controlContinuous Control	—Unverified	0
NoiseNCA: Noisy Seed Improves Spatio-Temporal Continuity of Neural Cellular Automata	Apr 9, 2024	continuous-controlContinuous Control	—Unverified	0
Growing Q-Networks: Solving Continuous Control Tasks with Adaptive Control Resolution	Apr 5, 2024	continuous-controlContinuous Control	—Unverified	0
Decision Transformer as a Foundation Model for Partially Observable Continuous Control	Apr 3, 2024	continuous-controlContinuous Control	—Unverified	0
Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration	Mar 31, 2024	continuous-controlContinuous Control	—Unverified	0
Reinforcement Learning from Delayed Observations via World Models	Mar 18, 2024	continuous-controlContinuous Control	CodeCode Available	0
Demystifying the Physics of Deep Reinforcement Learning-Based Autonomous Vehicle Decision-Making	Mar 18, 2024	Autonomous Vehiclescontinuous-control	—Unverified	0
Quality-Diversity Actor-Critic: Learning High-Performing and Diverse Behaviors via Value and Successor Features Critics	Mar 15, 2024	continuous-controlContinuous Control	CodeCode Available	1
Online Policy Learning from Offline Preferences	Mar 15, 2024	continuous-controlContinuous Control	—Unverified	0
Symmetric Q-learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning	Mar 12, 2024	continuous-controlContinuous Control	—Unverified	0
Sample-Optimal Zero-Violation Safety For Continuous Control	Mar 9, 2024	continuous-controlContinuous Control	—Unverified	0
Noisy Spiking Actor Network for Exploration	Mar 7, 2024	continuous-controlContinuous Control	—Unverified	0
SplAgger: Split Aggregation for Meta-Reinforcement Learning	Mar 5, 2024	continuous-controlContinuous Control	CodeCode Available	1
Iterated Q-Network: Beyond One-Step Bellman Updates in Deep Reinforcement Learning	Mar 4, 2024	Atari Gamescontinuous-control	—Unverified	0
EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data	Mar 1, 2024	continuous-controlContinuous Control	CodeCode Available	2
A Model-Based Approach for Improving Reinforcement Learning Efficiency Leveraging Expert Observations	Feb 29, 2024	continuous-controlContinuous Control	CodeCode Available	0
DynaMITE-RL: A Dynamic Model for Improved Temporal Meta-Reinforcement Learning	Feb 25, 2024	continuous-controlContinuous Control	—Unverified	0
ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization	Feb 22, 2024	continuous-controlContinuous Control	—Unverified	0
PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control	Feb 16, 2024	continuous-controlContinuous Control	CodeCode Available	1
Dataset Clustering for Improved Offline Policy Learning	Feb 14, 2024	Clusteringcontinuous-control	CodeCode Available	0
Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks	Feb 14, 2024	Computational Efficiencycontinuous-control	—Unverified	0
Hybrid Inverse Reinforcement Learning	Feb 13, 2024	continuous-controlContinuous Control	CodeCode Available	1
Premier-TACO is a Few-Shot Policy Learner: Pretraining Multitask Representation via Temporal Action-Driven Contrastive Loss	Feb 9, 2024	Computational Efficiencycontinuous-control	CodeCode Available	1
FedAA: A Reinforcement Learning Perspective on Adaptive Aggregation for Fair and Robust Federated Learning	Feb 8, 2024	continuous-controlContinuous Control	CodeCode Available	1
Offline Actor-Critic Reinforcement Learning Scales to Large Models	Feb 8, 2024	continuous-controlContinuous Control	—Unverified	0
Differentially Private Deep Model-Based Reinforcement Learning	Feb 8, 2024	continuous-controlContinuous Control	—Unverified	0
FlowPG: Action-constrained Policy Gradient with Normalizing Flows	Feb 7, 2024	continuous-controlContinuous Control	CodeCode Available	0
Learning Diverse Policies with Soft Self-Generated Guidance	Feb 7, 2024	continuous-controlContinuous Control	—Unverified	0
Logical Specifications-guided Dynamic Task Sampling for Reinforcement Learning Agents	Feb 6, 2024	continuous-controlContinuous Control	CodeCode Available	0
Frugal Actor-Critic: Sample Efficient Off-Policy Deep Reinforcement Learning Using Unique Experiences	Feb 5, 2024	continuous-controlContinuous Control	—Unverified	0
Deep Exploration with PAC-Bayes	Feb 5, 2024	continuous-controlContinuous Control	—Unverified	0
Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence	Feb 5, 2024	continuous-controlContinuous Control	—Unverified	0
A Strategy for Preparing Quantum Squeezed States Using Reinforcement Learning	Jan 29, 2024	continuous-controlContinuous Control	—Unverified	0

Show:10 25 50

← PrevPage 4 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified