OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 382 papers

Title	Date	Tasks	Status
Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error	Dec 26, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
On Combining Expert Demonstrations in Imitation Learning via Optimal Transport	Jul 20, 2023	Imitation LearningOpenAI Gym	—Unverified
Online Robust Policy Learning in the Presence of Unknown Adversaries	Jul 16, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Asymptotic Analysis of Sample-averaged Q-learning	Oct 14, 2024	OpenAI GymQ-Learning	—Unverified
Optimism is All You Need: Model-Based Imitation Learning From Observation Alone	Mar 9, 2021	AllImitation Learning	—Unverified
Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning	Mar 21, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified
Optimizing Sensor Redundancy in Sequential Decision-Making Problems	Dec 10, 2024	Decision MakingOpenAI Gym	—Unverified
Photonic Quantum Policy Learning in OpenAI Gym	Aug 29, 2021	BIG-bench Machine Learningcontinuous-control	—Unverified
Policy Gradient using Weak Derivatives for Reinforcement Learning	Apr 9, 2020	OpenAI Gymreinforcement-learning	—Unverified
Population-coding and Dynamic-neurons improved Spiking Actor Network for Reinforcement Learning	Jun 15, 2021	Deep Reinforcement LearningOpenAI Gym	—Unverified
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation	Feb 28, 2022	continuous-controlContinuous Control	—Unverified
Proximal Policy Gradient: PPO with Policy Gradient	Oct 20, 2020	OpenAI Gym	—Unverified
Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution	Nov 3, 2021	continuous-controlContinuous Control	—Unverified
Decision-Making in Reinforcement Learning	Jun 1, 2019	Decision MakingDeep Reinforcement Learning	—Unverified
Qualitative Measurements of Policy Discrepancy for Return-Based Deep Q-Network	Jun 14, 2018	OpenAI Gymreinforcement-learning	—Unverified
Quality Diversity Evolutionary Learning of Decision Trees	Aug 17, 2022	DiversityOpenAI Gym	—Unverified
Reward Prediction Error as an Exploration Objective in Deep RL	Jun 19, 2019	Atari GamesContinuous Control	—Unverified
RAIL: A modular framework for Reinforcement-learning-based Adversarial Imitation Learning	May 8, 2021	Imitation LearningOpenAI Gym	—Unverified
RangL: A Reinforcement Learning Competition Platform	Jul 28, 2022	OpenAI Gymreinforcement-learning	—Unverified
The Smart Buildings Control Suite: A Diverse Open Source Benchmark to Evaluate and Scale HVAC Control Policies for Sustainability	Oct 2, 2024	Model Predictive ControlOffline RL	—Unverified
Recommendation System-based Upper Confidence Bound for Online Advertising	Sep 9, 2019	OpenAI GymProduct Recommendation	—Unverified
A Learning Approach to Robot-Agnostic Force-Guided High Precision Assembly	Oct 15, 2020	OpenAI GymVocal Bursts Intensity Prediction	—Unverified
WD3: Taming the Estimation Bias in Deep Reinforcement Learning	Jun 18, 2020	continuous-controlContinuous Control	—Unverified
Refined Continuous Control of DDPG Actors via Parametrised Activation	Jun 4, 2020	continuous-controlContinuous Control	—Unverified
REIN-2: Giving Birth to Prepared Reinforcement Learning Agents Using Reinforcement Learning Agents	Oct 11, 2021	Deep Reinforcement LearningMeta-Learning	—Unverified
Reinforcement Learning Approach for Multi-Agent Flexible Scheduling Problems	Oct 7, 2022	Combinatorial OptimizationDecision Making	—Unverified
Reinforcement Learning for Robotics and Control with Active Uncertainty Reduction	May 15, 2019	ManagementOpenAI Gym	—Unverified
Reinforcement Learning using Guided Observability	Apr 22, 2021	Decision MakingMuJoCo	—Unverified
Relative Importance Sampling for off-Policy Actor-Critic in Deep Reinforcement Learning	Oct 30, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning	Mar 24, 2022	continuous-controlContinuous Control	—Unverified
Resilient Control of Networked Microgrids using Vertical Federated Reinforcement Learning: Designs and Real-Time Test-Bed Validations	Nov 21, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified
Rethinking Population-assisted Off-policy Reinforcement Learning	May 4, 2023	OpenAI Gymreinforcement-learning	—Unverified
Robustness Evaluation of Offline Reinforcement Learning for Robot Control Against Action Perturbations	Dec 25, 2024	Deep Reinforcement LearningOpenAI Gym	—Unverified
Sample-based Distributional Policy Gradient	Jan 8, 2020	Distributional Reinforcement LearningOpenAI Gym	—Unverified
Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing	Jul 11, 2023	Lifelong learningOpenAI Gym	—Unverified
Scilab-RL: A software framework for efficient reinforcement learning and cognitive modeling research	Jan 25, 2024	Data VisualizationHyperparameter Optimization	—Unverified
SDGym: Low-Code Reinforcement Learning Environments using System Dynamics Models	Oct 19, 2023	OpenAI Gymreinforcement-learning	—Unverified
Sepsis World Model: A MIMIC-based OpenAI Gym "World Model" Simulator for Sepsis Treatment	Dec 15, 2019	modelOpenAI Gym	—Unverified
Sequential Learning of Movement Prediction in Dynamic Environments using LSTM Autoencoder	Oct 12, 2018	DecoderNavigate	—Unverified
Session-Level Dynamic Ad Load Optimization using Offline Robust Reinforcement Learning	Jan 9, 2025	OpenAI Gym	—Unverified
SIMILE: Introducing Sequential Information towards More Effective Imitation Learning	May 1, 2019	Imitation LearningOpenAI Gym	—Unverified
skrl: Modular and Flexible Library for Reinforcement Learning	Feb 8, 2022	Isaac Gym PreviewOmniverse Isaac Gym	—Unverified
Soft Actor-Critic with Inhibitory Networks for Faster Retraining	Feb 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
State Distribution-aware Sampling for Deep Q-learning	Apr 23, 2018	Atari GamesOpenAI Gym	—Unverified
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning	Aug 28, 2023	D4RLOff-policy evaluation	—Unverified
Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning	Dec 18, 2024	Model-based Reinforcement LearningOpenAI Gym	—Unverified
STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation	May 27, 2025	D4RLDenoising	—Unverified
Structured Evolution with Compact Architectures for Scalable Policy Optimization	Apr 6, 2018	OpenAI GymText-to-Image Generation	—Unverified
Sufficient Exploration for Convex Q-learning	Oct 17, 2022	OpenAI GymQ-Learning	—Unverified
SURREAL-System: Fully-Integrated Stack for Distributed Deep Reinforcement Learning	Sep 27, 2019	CPUDeep Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified