Continuous Control

Continuous control in the context of playing games, especially within artificial intelligence (AI) and machine learning (ML), refers to the ability to make a series of smooth, ongoing adjustments or actions to control a game or a simulation. This is in contrast to discrete control, where the actions are limited to a set of specific, distinct choices. Continuous control is crucial in environments where precision, timing, and the magnitude of actions matter, such as driving a car in a racing game, controlling a character in a simulation, or managing the flight of an aircraft in a flight simulator.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1161 papers

Title	Date	Tasks	Status	Hype
Supervised Fine Tuning on Curated Data is Reinforcement Learning (and can be improved)	Jul 17, 2025	continuous-controlContinuous Control	—Unverified	0
rQdia: Regularizing Q-Value Distributions With Image Augmentation	Jun 26, 2025	continuous-controlContinuous Control	—Unverified	0
Sparse-Reg: Improving Sample Complexity in Offline Reinforcement Learning using Sparsity	Jun 20, 2025	continuous-controlContinuous Control	CodeCode Available	0
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute	Jun 18, 2025	continuous-controlContinuous Control	—Unverified	0
Scaling Algorithm Distillation for Continuous Control with Mamba	Jun 16, 2025	continuous-controlContinuous Control	—Unverified	0
DR-SAC: Distributionally Robust Soft Actor-Critic for Reinforcement Learning under Uncertainty	Jun 14, 2025	continuous-controlContinuous Control	CodeCode Available	0
Wasserstein Barycenter Soft Actor-Critic	Jun 11, 2025	continuous-controlContinuous Control	—Unverified	0
Reinforcement Learning via Implicit Imitation Guidance	Jun 9, 2025	continuous-controlContinuous Control	—Unverified	0
BEAST: Efficient Tokenization of B-Splines Encoded Action Sequences for Imitation Learning	Jun 6, 2025	continuous-controlContinuous Control	—Unverified	0
AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization	Jun 5, 2025	continuous-controlContinuous Control	—Unverified	0
Safe Planning and Policy Optimization via World Model Learning	Jun 5, 2025	continuous-controlContinuous Control	—Unverified	0
Self-Composing Policies for Scalable Continual Reinforcement Learning	Jun 4, 2025	continuous-controlContinuous Control	—Unverified	0
Unsupervised Meta-Testing with Conditional Neural Processes for Hybrid Meta-Reinforcement Learning	Jun 4, 2025	continuous-controlContinuous Control	—Unverified	0
Proxy Target: Bridging the Gap Between Discrete Spiking Neural Networks and Continuous Control	May 30, 2025	continuous-controlContinuous Control	—Unverified	0
DATD3: Depthwise Attention Twin Delayed Deep Deterministic Policy Gradient For Model Free Reinforcement Learning Under Output Feedback Control	May 29, 2025	continuous-controlContinuous Control	—Unverified	0
Equivalence of stochastic and deterministic policy gradients	May 29, 2025	continuous-controlContinuous Control	—Unverified	0
Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better	May 29, 2025	continuous-controlContinuous Control	—Unverified	0
Improving Value Estimation Critically Enhances Vanilla Policy Gradient	May 25, 2025	continuous-controlContinuous Control	CodeCode Available	0
RLBenchNet: The Right Network for the Right Reinforcement Learning Task	May 21, 2025	continuous-controlContinuous Control	CodeCode Available	1
World Models as Reference Trajectories for Rapid Motor Adaptation	May 21, 2025	continuous-controlContinuous Control	—Unverified	0
AM-PPO: (Advantage) Alpha-Modulation with Proximal Policy Optimization	May 21, 2025	continuous-controlContinuous Control	—Unverified	0
Guided Policy Optimization under Partial Observability	May 21, 2025	continuous-controlContinuous Control	CodeCode Available	0
Sample and Computationally Efficient Continuous-Time Reinforcement Learning with General Function Approximation	May 20, 2025	Computational Efficiencycontinuous-control	CodeCode Available	0
KIPPO: Koopman-Inspired Proximal Policy Optimization	May 20, 2025	Computational Efficiencycontinuous-control	—Unverified	0
CIE: Controlling Language Model Text Generations Using Continuous Signals	May 19, 2025	continuous-controlContinuous Control	CodeCode Available	0
Bi-Level Policy Optimization with Nyström Hypergradients	May 16, 2025	Bilevel Optimizationcontinuous-control	—Unverified	0
Monte Carlo Beam Search for Actor-Critic Reinforcement Learning in Continuous Control	May 13, 2025	Computational Efficiencycontinuous-control	—Unverified	0
Adaptive Diffusion Policy Optimization for Robotic Manipulation	May 13, 2025	continuous-controlContinuous Control	CodeCode Available	0
Cache-Efficient Posterior Sampling for Reinforcement Learning with LLM-Derived Priors Across Discrete and Continuous Domains	May 12, 2025	continuous-controlContinuous Control	—Unverified	0
Offline Multi-agent Reinforcement Learning via Score Decomposition	May 9, 2025	continuous-controlContinuous Control	—Unverified	0
Enhanced Robust Tracking Control: An Online Learning Approach	May 8, 2025	continuous-controlContinuous Control	CodeCode Available	0
CLAM: Continuous Latent Action Models for Robot Learning from Unlabeled Demonstrations	May 8, 2025	continuous-controlContinuous Control	—Unverified	0
Policy-labeled Preference Learning: Is Preference Enough for RLHF?	May 6, 2025	continuous-controlContinuous Control	—Unverified	0
Surrogate Fitness Metrics for Interpretable Reinforcement Learning	Apr 20, 2025	continuous-controlContinuous Control	—Unverified	0
TraCeS: Trajectory Based Credit Assignment From Sparse Safety Feedback	Apr 17, 2025	continuous-controlContinuous Control	—Unverified	0
Probabilistic Curriculum Learning for Goal-Based Reinforcement Learning	Apr 2, 2025	continuous-controlContinuous Control	—Unverified	0
Ensuring Safe and Smooth Control in Safety-Critical Systems via Filtered Control Barrier Functions	Mar 30, 2025	continuous-controlContinuous Control	—Unverified	0
Zero-Shot LLMs in Human-in-the-Loop RL: Replacing Human Feedback for Reward Shaping	Mar 26, 2025	continuous-controlContinuous Control	CodeCode Available	0
Bootstrapped Model Predictive Control	Mar 24, 2025	continuous-controlContinuous Control	CodeCode Available	1
KEA: Keeping Exploration Alive by Proactively Coordinating Exploration Strategies	Mar 23, 2025	continuous-controlContinuous Control	—Unverified	0
Learning with Expert Abstractions for Efficient Multi-Task Continuous Control	Mar 19, 2025	continuous-controlContinuous Control	CodeCode Available	0
VARP: Reinforcement Learning from Vision-Language Model Feedback with Agent Regularized Preferences	Mar 18, 2025	continuous-controlContinuous Control	—Unverified	0
ConsisLoRA: Enhancing Content and Style Consistency for LoRA-based Style Transfer	Mar 13, 2025	continuous-controlContinuous Control	—Unverified	0
Adaptive Anomaly Recovery for Telemanipulation: A Diffusion Model Approach to Vision-Based Tracking	Mar 11, 2025	continuous-controlContinuous Control	—Unverified	0
Adversarial Policy Optimization for Offline Preference-based Reinforcement Learning	Mar 7, 2025	continuous-controlContinuous Control	CodeCode Available	0
Closing the Intent-to-Behavior Gap via Fulfillment Priority Logic	Mar 4, 2025	continuous-controlContinuous Control	—Unverified	0
Improving Plasticity in Non-stationary Reinforcement Learning with Evidential Proximal Policy Optimization	Mar 3, 2025	continuous-controlContinuous Control	—Unverified	0
Discrete Codebook World Models for Continuous Control	Mar 1, 2025	continuous-controlContinuous Control	CodeCode Available	1
Scalable Decision-Making in Stochastic Environments through Learned Temporal Abstraction	Feb 28, 2025	continuous-controlContinuous Control	CodeCode Available	0
Continuous Wrist Control on the Hannes Prosthesis: a Vision-based Shared Autonomy Framework	Feb 24, 2025	continuous-controlContinuous Control	—Unverified	0

Show:10 25 50

← PrevPage 1 of 24Next →

All datasets PyBullet Ant PyBullet HalfCheetah PyBullet Hopper PyBullet Walker2D DeepMind Cheetah Run (Images)cartpole.balance_sparse cartpole.swingup cheetah.run DeepMind Cup Catch (Images)DeepMind Walker Walk (Images)finger.turn_hard walker.stand

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	3,459	—	Unverified
2	TD3 gSDE	Return	3,267	—	Unverified
3	TD3	Return	2,865	—	Unverified
4	SAC	Return	2,859	—	Unverified
5	PPO gSDE	Return	2,587	—	Unverified
6	A2C gSDE	Return	2,560	—	Unverified
7	PPO	Return	2,160	—	Unverified
8	A2C	Return	1,967	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Return	2,883	—	Unverified
2	SAC gSDE	Return	2,850	—	Unverified
3	PPO + gSDE	Return	2,760	—	Unverified
4	TD3	Return	2,687	—	Unverified
5	TD3 gSDE	Return	2,578	—	Unverified
6	PPO	Return	2,254	—	Unverified
7	A2C + gSDE	Return	2,028	—	Unverified
8	A2C	Return	1,652	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,646	—	Unverified
2	PPO gSDE	Return	2,508	—	Unverified
3	SAC	Return	2,477	—	Unverified
4	TD3	Return	2,470	—	Unverified
5	TD3 gSDE	Return	2,353	—	Unverified
6	PPO	Return	1,622	—	Unverified
7	A2C	Return	1,559	—	Unverified
8	A2C gSDE	Return	1,448	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC gSDE	Return	2,341	—	Unverified
2	SAC	Return	2,215	—	Unverified
3	TD3	Return	2,106	—	Unverified
4	TD3 gSDE	Return	1,989	—	Unverified
5	PPO gSDE	Return	1,776	—	Unverified
6	PPO	Return	1,238	—	Unverified
7	A2C gSDE	Return	694	—	Unverified
8	A2C	Return	443	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DreamerV1	Return	800	—	Unverified
2	SLAC	Return	700	—	Unverified
3	DrQ	Return	660	—	Unverified
4	PlaNet	Return	650	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	998.14	—	Unverified
2	DREAMER	Return	853	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	868.87	—	Unverified
2	MuZero Unplugged	Return	594.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	914.39	—	Unverified
2	MuZero Unplugged	Return	869.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	963	—	Unverified
2	PlaNet	Return	914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DrQ	Return	921	—	Unverified
2	PlaNet	Return	890	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	963.07	—	Unverified
2	MuZero Unplugged	Return	759	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	987.79	—	Unverified
2	MuZero Unplugged	Return	887.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	975.46	—	Unverified
2	MuZero Unplugged	Return	949.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,353.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-326	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-83.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-149.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	417.52	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-170.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	730.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-0.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	977.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	769	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	959	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	984.86	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,869.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	960.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	606.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	980.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	178.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	582	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	841	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	846.91	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	299	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	518	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4,412.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	986.38	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	767	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	926	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	972.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	681.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	287	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,914	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	1,183.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	528.24	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	926.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	643.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	247.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	4.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	10.4	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	14.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MAC	Score	163.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	659.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MuZero Unplugged	Return	556	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-64.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-60.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	-61.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	837.76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	923.54	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	933.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	982.26	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	538	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	929	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	971.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	269.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	96	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TRPO	Score	0	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SMuZero	Return	931.06	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	403	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CURL	Score	902	—	Unverified