OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 382 papers

Title	Date	Tasks	Status
Direct Mutation and Crossover in Genetic Algorithms Applied to Reinforcement Learning Tasks	Jan 13, 2022	OpenAI Gymreinforcement-learning	—Unverified
Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning	May 17, 2023	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
Distilling Deep RL Models Into Interpretable Neuro-Fuzzy Systems	Sep 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Distributionally Robust Statistical Verification with Imprecise Neural Networks	Aug 28, 2023	Active LearningMuJoCo	—Unverified
Double A3C: Deep Reinforcement Learning on OpenAI Gym Games	Mar 4, 2023	Atari GamesDeep Reinforcement Learning	—Unverified
DQN with model-based exploration: efficient learning on environments with sparse rewards	Mar 22, 2019	Atari GamesOpenAI Gym	—Unverified
DriverGym: Democratising Reinforcement Learning for Autonomous Driving	Nov 12, 2021	Autonomous DrivingOpenAI Gym	—Unverified
Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret Minimization	Feb 19, 2024	counterfactualOpenAI Gym	—Unverified
EasyRL: A Simple and Extensible Reinforcement Learning Framework	Aug 4, 2020	OpenAI Gymreinforcement-learning	—Unverified
Elastic Step DQN: A novel multi-step algorithm to alleviate overestimation in Deep QNetworks	Oct 7, 2022	OpenAI Gym	—Unverified
Enhancing Cyber Resilience of Networked Microgrids using Vertical Federated Reinforcement Learning	Dec 17, 2022	OpenAI Gymreinforcement-learning	—Unverified
Enhancing Hardware Fault Tolerance in Machines with Reinforcement Learning Policy Gradient Algorithms	Jul 21, 2024	Continual LearningOpenAI Gym	—Unverified
Enhancing Privacy and Security of Autonomous UAV Navigation	Apr 26, 2024	Autonomous NavigationDisaster Response	—Unverified
Error Controlled Actor-Critic Method to Reinforcement Learning	Jan 1, 2021	continuous-controlContinuous Control	—Unverified
Evading Web Application Firewalls with Reinforcement Learning	Dec 14, 2020	OpenAI Gymreinforcement-learning	—Unverified
Evolutionary Selective Imitation: Interpretable Agents by Imitation Learning Without a Demonstrator	Sep 17, 2020	Imitation LearningOpenAI Gym	—Unverified
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning	Jun 1, 2017	continuous-controlContinuous Control	—Unverified
Investigating Reinforcement Learning Agents for Continuous State Space Environments	Aug 8, 2017	OpenAI GymQ-Learning	—Unverified
LagNetViP: A Lagrangian Neural Network for Video Prediction	Oct 24, 2020	AcrobotOpenAI Gym	—Unverified
Multitask Neuroevolution for Reinforcement Learning with Long and Short Episodes	Mar 21, 2022	continuous-controlContinuous Control	—Unverified
Learn a Prior for RHEA for Better Online Planning	Feb 14, 2019	Evolutionary AlgorithmsMuJoCo	—Unverified
Learning Environment Models with Continuous Stochastic Dynamics	Jun 29, 2023	AcrobotBenchmarking	—Unverified
Learning from Demonstrations using Signal Temporal Logic	Feb 15, 2021	OpenAI Gymreinforcement-learning	—Unverified
Learning Gaussian Policies from Corrective Human Feedback	Mar 12, 2019	continuous-controlContinuous Control	—Unverified
Local Environment Poisoning Attacks on Federated Reinforcement Learning	Mar 5, 2023	Federated LearningOpenAI Gym	—Unverified
Long N-step Surrogate Stage Reward to Reduce Variances of Deep Reinforcement Learning in Complex Problems	Oct 10, 2022	continuous-controlContinuous Control	—Unverified
Optimizing with Low Budgets: a Comparison on the Black-box Optimization Benchmarking Suite and OpenAI Gym	Sep 29, 2023	Bayesian OptimizationBenchmarking	—Unverified
Low-cost Real-world Implementation of the Swing-up Pendulum for Deep Reinforcement Learning Experiments	Mar 14, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified
Machine Learning aided Crop Yield Optimization	Nov 1, 2021	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified
MADRaS : Multi Agent Driving Simulator	Oct 2, 2020	Autonomous DrivingCar Racing	—Unverified
MAGICS: Adversarial RL with Minimax Actors Guided by Implicit Critic Stackelberg for Convergent Neural Synthesis of Robot Safety	Sep 20, 2024	OpenAI GymReinforcement Learning (RL)	—Unverified
MARTI-4: new model of human brain, considering neocortex and basal ganglia -- learns to play Atari game by reinforcement learning on a single CPU	Aug 18, 2022	CPUOpenAI Gym	—Unverified
MDP Playground: Controlling Orthogonal Dimensions of Hardness in Toy Environments	Sep 28, 2020	OpenAI GymReinforcement Learning (RL)	—Unverified
Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn	May 31, 2025	Continual LearningOpenAI Gym	—Unverified
Model-based actor-critic: GAN (model generator) + DRL (actor-critic) => AGI	Apr 4, 2020	modelOpenAI Gym	—Unverified
Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees	Jun 20, 2020	OpenAI Gymreinforcement-learning	—Unverified
Modelling non-reinforced preferences using selective attention	Jul 25, 2022	OpenAI Gym	—Unverified
MoET: Interpretable and Verifiable Reinforcement Learning via Mixture of Expert Trees	Sep 25, 2019	Deep Reinforcement LearningGame of Go	—Unverified
MR-iNet Gym: Framework for Edge Deployment of Deep Reinforcement Learning on Embedded Software Defined Radio	Apr 9, 2022	Deep Reinforcement LearningGPU	—Unverified
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation	Dec 30, 2021	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in Recommendation Systems	Jan 11, 2024	DiversityOpenAI Gym	—Unverified
Compositional Q-learning for electrolyte repletion with imbalanced patient sub-populations	Oct 6, 2021	Decision MakingNavigate	—Unverified
Nested Policy Reinforcement Learning for Clinical Decision Support	Sep 29, 2021	Decision MakingNavigate	—Unverified
Neural architecture impact on identifying temporally extended Reinforcement Learning tasks	Oct 4, 2023	Deep Reinforcement Learningimage-classification	—Unverified
Neural Episodic Control with State Abstraction	Jan 27, 2023	Deep Reinforcement LearningMuJoCo	—Unverified
Neuron as an Agent	Jan 1, 2018	counterfactualMulti-agent Reinforcement Learning	—Unverified
Noisy Spiking Actor Network for Exploration	Mar 7, 2024	continuous-controlContinuous Control	—Unverified
Non-Markovian Control with Gated End-to-End Memory Policy Networks	May 31, 2017	OpenAI GymReinforcement Learning	—Unverified
Offline Inverse Reinforcement Learning	Jun 9, 2021	Data AugmentationImitation Learning	—Unverified
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline	May 4, 2024	Computational EfficiencyMuJoCo	—Unverified

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified