OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–382 of 382 papers

Title	Date	Tasks	Status
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation	Feb 28, 2022	continuous-controlContinuous Control	—Unverified
Proximal Policy Gradient: PPO with Policy Gradient	Oct 20, 2020	OpenAI Gym	—Unverified
Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution	Nov 3, 2021	continuous-controlContinuous Control	—Unverified
QF-tuner: Breaking Tradition in Reinforcement Learning	Feb 26, 2024	OpenAI GymQ-Learning	—Unverified
Qualitative Measurements of Policy Discrepancy for Return-Based Deep Q-Network	Jun 14, 2018	OpenAI Gymreinforcement-learning	—Unverified
Quality Diversity Evolutionary Learning of Decision Trees	Aug 17, 2022	DiversityOpenAI Gym	—Unverified
Reward Prediction Error as an Exploration Objective in Deep RL	Jun 19, 2019	Atari GamesContinuous Control	—Unverified
RAIL: A modular framework for Reinforcement-learning-based Adversarial Imitation Learning	May 8, 2021	Imitation LearningOpenAI Gym	—Unverified
RangL: A Reinforcement Learning Competition Platform	Jul 28, 2022	OpenAI Gymreinforcement-learning	—Unverified
The Smart Buildings Control Suite: A Diverse Open Source Benchmark to Evaluate and Scale HVAC Control Policies for Sustainability	Oct 2, 2024	Model Predictive ControlOffline RL	—Unverified
Recommendation System-based Upper Confidence Bound for Online Advertising	Sep 9, 2019	OpenAI GymProduct Recommendation	—Unverified
A Learning Approach to Robot-Agnostic Force-Guided High Precision Assembly	Oct 15, 2020	OpenAI GymVocal Bursts Intensity Prediction	—Unverified
WD3: Taming the Estimation Bias in Deep Reinforcement Learning	Jun 18, 2020	continuous-controlContinuous Control	—Unverified
Refined Continuous Control of DDPG Actors via Parametrised Activation	Jun 4, 2020	continuous-controlContinuous Control	—Unverified
REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using Reinforcement Learning Agents	Oct 11, 2021	Deep Reinforcement LearningMeta-Learning	—Unverified
Reinforcement Learning Approach for Multi-Agent Flexible Scheduling Problems	Oct 7, 2022	Combinatorial OptimizationDecision Making	—Unverified
Reinforcement Learning for Robotics and Control with Active Uncertainty Reduction	May 15, 2019	ManagementOpenAI Gym	—Unverified
Reinforcement Learning using Guided Observability	Apr 22, 2021	Decision MakingMuJoCo	—Unverified
Relative Importance Sampling for off-Policy Actor-Critic in Deep Reinforcement Learning	Oct 30, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning	Mar 24, 2022	continuous-controlContinuous Control	—Unverified
Resilient Control of Networked Microgrids using Vertical Federated Reinforcement Learning: Designs and Real-Time Test-Bed Validations	Nov 21, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified
Rethinking Population-assisted Off-policy Reinforcement Learning	May 4, 2023	OpenAI Gymreinforcement-learning	—Unverified
Robustness Evaluation of Offline Reinforcement Learning for Robot Control Against Action Perturbations	Dec 25, 2024	Deep Reinforcement LearningOpenAI Gym	—Unverified
Sample-based Distributional Policy Gradient	Jan 8, 2020	Distributional Reinforcement LearningOpenAI Gym	—Unverified
Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing	Jul 11, 2023	Lifelong learningOpenAI Gym	—Unverified
Scilab-RL: A software framework for efficient reinforcement learning and cognitive modeling research	Jan 25, 2024	Data VisualizationHyperparameter Optimization	—Unverified
Sepsis World Model: A MIMIC-based OpenAI Gym "World Model" Simulator for Sepsis Treatment	Dec 15, 2019	modelOpenAI Gym	—Unverified
Sequential Learning of Movement Prediction in Dynamic Environments using LSTM Autoencoder	Oct 12, 2018	DecoderNavigate	—Unverified
Session-Level Dynamic Ad Load Optimization using Offline Robust Reinforcement Learning	Jan 9, 2025	OpenAI Gym	—Unverified
SIMILE: Introducing Sequential Information towards More Effective Imitation Learning	May 1, 2019	Imitation LearningOpenAI Gym	—Unverified
Soft Actor-Critic with Inhibitory Networks for Faster Retraining	Feb 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
State Distribution-aware Sampling for Deep Q-learning	Apr 23, 2018	Atari GamesOpenAI Gym	—Unverified

Show:10 25 50

← PrevPage 8 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified