OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 382 papers

Title	Date	Tasks	Status	Hype
Stackelberg Actor-Critic: Game-Theoretic Reinforcement Learning Algorithms	Sep 25, 2021	OpenAI Gymreinforcement-learning	CodeCode Available	1
Decision Transformer: Reinforcement Learning via Sequence Modeling	Jun 2, 2021	Atari GamesD4RL	CodeCode Available	1
Ecole: A Gym-like Library for Machine Learning in Combinatorial Optimization Solvers	Nov 11, 2020	BIG-bench Machine LearningCombinatorial Optimization	CodeCode Available	1
Reinforcement Learning for Control of Valves	Dec 29, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1
Implicit Distributional Reinforcement Learning	Jul 13, 2020	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available	1
Dynamic Sparse Training for Deep Reinforcement Learning	Jun 8, 2021	continuous-controlContinuous Control	CodeCode Available	1
Can language agents be alternatives to PPO? A Preliminary Empirical Study On OpenAI Gym	Dec 6, 2023	BenchmarkingDecision Making	CodeCode Available	1
Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Oct 1, 2019	continuous-controlContinuous Control	CodeCode Available	1
A Reinforcement Learning Environment for Multi-Service UAV-enabled Wireless Systems	May 11, 2021	BenchmarkingEdge-computing	CodeCode Available	1
Blue River Controls: A toolkit for Reinforcement Learning Control Systems on Hardware	Jan 7, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1
CaiRL: A High-Performance Reinforcement Learning Environment Toolkit	Oct 3, 2022	OpenAI Gymreinforcement-learning	CodeCode Available	1
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1
Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep Reinforcement Learning	Aug 11, 2022	continuous-controlContinuous Control	CodeCode Available	1
ABIDES-Gym: Gym Environments for Multi-Agent Discrete Event Simulation and Application to Financial Markets	Oct 27, 2021	OpenAI GymReinforcement Learning (RL)	CodeCode Available	1
Experience Replay with Likelihood-free Importance Weights	Jun 23, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1
EpidemiOptim: A Toolbox for the Optimization of Control Policies in Epidemiological Models	Oct 9, 2020	Deep Reinforcement LearningEpidemiology	CodeCode Available	1
NavRep: Unsupervised Representations for Reinforcement Learning of Robot Navigation in Dynamic Human Environments	Dec 8, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1
For SALE: State-Action Representation Learning for Deep Reinforcement Learning	Jun 4, 2023	continuous-controlContinuous Control	CodeCode Available	1
CityLearn: Standardizing Research in Multi-Agent Reinforcement Learning for Demand Response and Urban Energy Management	Dec 18, 2020	energy managementManagement	CodeCode Available	1
Improving Model-Based Reinforcement Learning with Internal State Representations through Self-Supervision	Feb 10, 2021	Board GamesModel-based Reinforcement Learning	CodeCode Available	1
Addressing Function Approximation Error in Actor-Critic Methods	Feb 26, 2018	Continuous ControlOpenAI Gym	CodeCode Available	1
Towards Real-World Deployment of Reinforcement Learning for Traffic Signal Control	Mar 30, 2021	CPUOpenAI Gym	CodeCode Available	1
LongiControl: A Reinforcement Learning Environment for Longitudinal Vehicle Control	Feb 6, 2021	Autonomous DrivingOpenAI Gym	CodeCode Available	1
Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning	Jun 4, 2024	MambaOpenAI Gym	CodeCode Available	1
CompilerGym: Robust, Performant Compiler Optimization Environments for AI Research	Sep 17, 2021	Compiler OptimizationOpenAI Gym	CodeCode Available	1
An Open-Source Multi-Goal Reinforcement Learning Environment for Robotic Manipulation with Pybullet	May 12, 2021	MuJoCoMulti-Goal Reinforcement Learning	CodeCode Available	1
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor	Jan 4, 2018	Continuous ControlDecision Making	CodeCode Available	1
MoËT: Mixture of Expert Trees and its Application to Verifiable Reinforcement Learning	Jun 16, 2019	Game of GoImitation Learning	CodeCode Available	1
Adaptive Droplet Routing in Digital Microfluidic Biochips Using Deep Reinforcement Learning	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
myGym: Modular Toolkit for Visuomotor Robotic Tasks	Dec 21, 2020	Imitation LearningOpenAI Gym	—Unverified	0
BlockPuzzle - A Challenge in Physical Reasoning and Generalization for Robot Learning	Nov 30, 2018	Imitation LearningMuJoCo	—Unverified	0
Adaptive Experience Selection for Policy Gradient	Feb 17, 2020	continuous-controlContinuous Control	—Unverified	0
Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret Minimization	Feb 19, 2024	counterfactualOpenAI Gym	—Unverified	0
DQN with model-based exploration: efficient learning on environments with sparse rewards	Mar 22, 2019	Atari GamesOpenAI Gym	—Unverified	0
Airlift Challenge: A Competition for Optimizing Cargo Delivery	Apr 26, 2024	OpenAI Gym	—Unverified	0
DriverGym: Democratising Reinforcement Learning for Autonomous Driving	Nov 12, 2021	Autonomous DrivingOpenAI Gym	—Unverified	0
Benchmarking Algorithms from Machine Learning for Low-Budget Black-Box Optimization	Sep 29, 2021	Bayesian OptimizationBenchmarking	—Unverified	0
A Generalised Inverse Reinforcement Learning Framework	May 25, 2021	OpenAI Gymreinforcement-learning	—Unverified	0
EasyRL: A Simple and Extensible Reinforcement Learning Framework	Aug 4, 2020	OpenAI Gymreinforcement-learning	—Unverified	0
Behavior Cloning in OpenAI using Case Based Reasoning	Feb 23, 2020	OpenAI Gym	—Unverified	0
Affine Transport for Sim-to-Real Domain Adaptation	May 25, 2021	Domain AdaptationOpenAI Gym	—Unverified	0
Active Inference in Hebbian Learning Networks	Jun 8, 2023	OpenAI GymQ-Learning	—Unverified	0
Balancing a CartPole System with Reinforcement Learning -- A Tutorial	Jun 8, 2020	OpenAI GymQ-Learning	—Unverified	0
AWD3: Dynamic Reduction of the Estimation Bias	Nov 12, 2021	continuous-controlContinuous Control	—Unverified	0
Adversarial joint attacks on legged robots	May 20, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks	May 16, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints	Feb 2, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified	0
Adversarial Exploration Strategy for Self-Supervised Imitation Learning	May 1, 2019	Deep Reinforcement LearningImitation Learning	—Unverified	0
Distilling Deep RL Models Into Interpretable Neuro-Fuzzy Systems	Sep 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Attention Loss Adjusted Prioritized Experience Replay	Sep 13, 2023	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified	0

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified