OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 382 papers

Title	Date	Tasks	Status	Hype
ACN-Sim: An Open-Source Simulator for Data-Driven Electric Vehicle Charging Research	Dec 4, 2020	OpenAI GymReinforcement Learning (RL)	CodeCode Available	1
Revisiting Maximum Entropy Inverse Reinforcement Learning: New Perspectives and Algorithms	Dec 1, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1
NLPGym -- A toolkit for evaluating RL agents on Natural Language Processing Tasks	Nov 16, 2020	Multi-Label ClassificationMUlTI-LABEL-ClASSIFICATION	CodeCode Available	1
Tonic: A Deep Reinforcement Learning Library for Fast Prototyping and Benchmarking	Nov 15, 2020	Benchmarkingcontinuous-control	CodeCode Available	1
SoftGym: Benchmarking Deep Reinforcement Learning for Deformable Object Manipulation	Nov 14, 2020	BenchmarkingDeep Reinforcement Learning	CodeCode Available	1
Ecole: A Gym-like Library for Machine Learning in Combinatorial Optimization Solvers	Nov 11, 2020	BIG-bench Machine LearningCombinatorial Optimization	CodeCode Available	1
Deep Reinforcement Learning with Population-Coded Spiking Neural Network for Continuous Control	Oct 19, 2020	continuous-controlContinuous Control	CodeCode Available	1
What About Inputing Policy in Value Function: Policy Representation and Policy-extended Value Function Approximator	Oct 19, 2020	continuous-controlContinuous Control	CodeCode Available	1
EpidemiOptim: A Toolbox for the Optimization of Control Policies in Epidemiological Models	Oct 9, 2020	Deep Reinforcement LearningEpidemiology	CodeCode Available	1
On the model-based stochastic value gradient for continuous reinforcement learning	Aug 28, 2020	Continuous ControlHumanoid Control	CodeCode Available	1
Integrating Deep Reinforcement Learning Networks with Health System Simulations	Jul 21, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1
Implicit Distributional Reinforcement Learning	Jul 13, 2020	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available	1
OtoWorld: Towards Learning to Separate by Learning to Move	Jul 12, 2020	Audio Source SeparationNavigate	CodeCode Available	1
Experience Replay with Likelihood-free Importance Weights	Jun 23, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1
Reinforcement Learning with Augmented Data	Apr 30, 2020	Data AugmentationOpenAI Gym	CodeCode Available	1
Neural Game Engine: Accurate learning of generalizable forward models from pixels	Mar 23, 2020	GPUModel-based Reinforcement Learning	CodeCode Available	1
State-only Imitation with Transition Dynamics Mismatch	Feb 27, 2020	Imitation LearningMuJoCo	CodeCode Available	1
PDDLGym: Gym Environments from PDDL Problems	Feb 15, 2020	Decision MakingOpenAI Gym	CodeCode Available	1
Blue River Controls: A toolkit for Reinforcement Learning Control Systems on Hardware	Jan 7, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1
Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Oct 1, 2019	continuous-controlContinuous Control	CodeCode Available	1
MoËT: Mixture of Expert Trees and its Application to Verifiable Reinforcement Learning	Jun 16, 2019	Game of GoImitation Learning	CodeCode Available	1
Maximum Entropy-Regularized Multi-Goal Reinforcement Learning	May 21, 2019	Multi-Goal Reinforcement LearningOpenAI Gym	CodeCode Available	1
Monte Carlo Tree Search for Asymmetric Trees	May 23, 2018	Atari GamesOpenAI Gym	CodeCode Available	1
Addressing Function Approximation Error in Actor-Critic Methods	Feb 26, 2018	Continuous ControlOpenAI Gym	CodeCode Available	1
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor	Jan 4, 2018	Continuous ControlDecision Making	CodeCode Available	1
A Benchmark Environment Motivated by Industrial Control Problems	Sep 27, 2017	OpenAI GymReinforcement Learning	CodeCode Available	1
Continuous control with deep reinforcement learning	Sep 9, 2015	Action Detectioncontinuous-control	CodeCode Available	1
Deep Recurrent Q-Learning for Partially Observable MDPs	Jul 23, 2015	Atari GamesDeep Reinforcement Learning	CodeCode Available	1
Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn	May 31, 2025	Continual LearningOpenAI Gym	—Unverified	0
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym	May 28, 2025	OpenAI GymReinforcement Learning (RL)	CodeCode Available	0
STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation	May 27, 2025	D4RLDenoising	—Unverified	0
ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks	May 16, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM	May 16, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available	0
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available	0
Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning	Mar 21, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Low-cost Real-world Implementation of the Swing-up Pendulum for Deep Reinforcement Learning Experiments	Mar 14, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Value-Based Deep RL Scales Predictably	Feb 6, 2025	OpenAI Gym	—Unverified	0
Illuminating Spaces: Deep Reinforcement Learning and Laser-Wall Partitioning for Architectural Layout Generation	Feb 6, 2025	Deep Reinforcement LearningLayout Design	—Unverified	0
Session-Level Dynamic Ad Load Optimization using Offline Robust Reinforcement Learning	Jan 9, 2025	OpenAI Gym	—Unverified	0
Robustness Evaluation of Offline Reinforcement Learning for Robot Control Against Action Perturbations	Dec 25, 2024	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning	Dec 18, 2024	Model-based Reinforcement LearningOpenAI Gym	—Unverified	0
A quantum-classical reinforcement learning model to play Atari games	Dec 11, 2024	Atari GamesBenchmarking	CodeCode Available	0
Optimizing Sensor Redundancy in Sequential Decision-Making Problems	Dec 10, 2024	Decision MakingOpenAI Gym	—Unverified	0
Creating Hierarchical Dispositions of Needs in an Agent	Nov 23, 2024	OpenAI GymPendulum-v1	CodeCode Available	0
A Multi-Agent Reinforcement Learning Testbed for Cognitive Radio Applications	Oct 28, 2024	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified	0
Asymptotic Analysis of Sample-averaged Q-learning	Oct 14, 2024	OpenAI GymQ-Learning	—Unverified	0
The Smart Buildings Control Suite: A Diverse Open Source Benchmark to Evaluate and Scale HVAC Control Policies for Sustainability	Oct 2, 2024	Model Predictive ControlOffline RL	—Unverified	0
MAGICS: Adversarial RL with Minimax Actors Guided by Implicit Critic Stackelberg for Convergent Neural Synthesis of Robot Safety	Sep 20, 2024	OpenAI GymReinforcement Learning (RL)	—Unverified	0
Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning	Sep 10, 2024	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	0

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified