OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 382 papers

Title	Date	Tasks	Status
Implementing Reinforcement Learning Algorithms in Retail Supply Chains with OpenAI Gym Toolkit	Apr 27, 2021	Demand ForecastingManagement	—Unverified
Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques	Sep 25, 2023	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Implicit Two-Tower Policies	Aug 2, 2022	OpenAI GymVocal Bursts Valence Prediction	—Unverified
Improving Reinforcement Learning with Human Assistance: An Argument for Human Subject Studies with HIPPO Gym	Feb 2, 2021	OpenAI GymReinforcement Learning (RL)	—Unverified
Influence-Based Reinforcement Learning for Intrinsically-Motivated Agents	Aug 28, 2021	counterfactualMulti-agent Reinforcement Learning	—Unverified
In Support of Over-Parametrization in Deep Reinforcement Learning: an Empirical Study	May 17, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning	Jun 1, 2017	continuous-controlContinuous Control	—Unverified
Investigating Reinforcement Learning Agents for Continuous State Space Environments	Aug 8, 2017	OpenAI GymQ-Learning	—Unverified
LagNetViP: A Lagrangian Neural Network for Video Prediction	Oct 24, 2020	AcrobotOpenAI Gym	—Unverified
Multitask Neuroevolution for Reinforcement Learning with Long and Short Episodes	Mar 21, 2022	continuous-controlContinuous Control	—Unverified
Learn a Prior for RHEA for Better Online Planning	Feb 14, 2019	Evolutionary AlgorithmsMuJoCo	—Unverified
Learning Environment Models with Continuous Stochastic Dynamics	Jun 29, 2023	AcrobotBenchmarking	—Unverified
Learning from Demonstrations using Signal Temporal Logic	Feb 15, 2021	OpenAI Gymreinforcement-learning	—Unverified
Learning Gaussian Policies from Corrective Human Feedback	Mar 12, 2019	continuous-controlContinuous Control	—Unverified
Local Environment Poisoning Attacks on Federated Reinforcement Learning	Mar 5, 2023	Federated LearningOpenAI Gym	—Unverified
Long N-step Surrogate Stage Reward to Reduce Variances of Deep Reinforcement Learning in Complex Problems	Oct 10, 2022	continuous-controlContinuous Control	—Unverified
Optimizing with Low Budgets: a Comparison on the Black-box Optimization Benchmarking Suite and OpenAI Gym	Sep 29, 2023	Bayesian OptimizationBenchmarking	—Unverified
Low-cost Real-world Implementation of the Swing-up Pendulum for Deep Reinforcement Learning Experiments	Mar 14, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified
Machine Learning aided Crop Yield Optimization	Nov 1, 2021	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified
MADRaS : Multi Agent Driving Simulator	Oct 2, 2020	Autonomous DrivingCar Racing	—Unverified
MAGICS: Adversarial RL with Minimax Actors Guided by Implicit Critic Stackelberg for Convergent Neural Synthesis of Robot Safety	Sep 20, 2024	OpenAI GymReinforcement Learning (RL)	—Unverified
MARTI-4: new model of human brain, considering neocortex and basal ganglia -- learns to play Atari game by reinforcement learning on a single CPU	Aug 18, 2022	CPUOpenAI Gym	—Unverified
MDP Playground: Controlling Orthogonal Dimensions of Hardness in Toy Environments	Sep 28, 2020	OpenAI GymReinforcement Learning (RL)	—Unverified
Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn	May 31, 2025	Continual LearningOpenAI Gym	—Unverified
Model-based actor-critic: GAN (model generator) + DRL (actor-critic) => AGI	Apr 4, 2020	modelOpenAI Gym	—Unverified
Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees	Jun 20, 2020	OpenAI Gymreinforcement-learning	—Unverified
Modelling non-reinforced preferences using selective attention	Jul 25, 2022	OpenAI Gym	—Unverified
MoET: Interpretable and Verifiable Reinforcement Learning via Mixture of Expert Trees	Sep 25, 2019	Deep Reinforcement LearningGame of Go	—Unverified
MR-iNet Gym: Framework for Edge Deployment of Deep Reinforcement Learning on Embedded Software Defined Radio	Apr 9, 2022	Deep Reinforcement LearningGPU	—Unverified
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation	Dec 30, 2021	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in Recommendation Systems	Jan 11, 2024	DiversityOpenAI Gym	—Unverified
Compositional Q-learning for electrolyte repletion with imbalanced patient sub-populations	Oct 6, 2021	Decision MakingNavigate	—Unverified
Nested Policy Reinforcement Learning for Clinical Decision Support	Sep 29, 2021	Decision MakingNavigate	—Unverified
Neural architecture impact on identifying temporally extended Reinforcement Learning tasks	Oct 4, 2023	Deep Reinforcement Learningimage-classification	—Unverified
Neural Episodic Control with State Abstraction	Jan 27, 2023	Deep Reinforcement LearningMuJoCo	—Unverified
Neuron as an Agent	Jan 1, 2018	counterfactualMulti-agent Reinforcement Learning	—Unverified
Noisy Spiking Actor Network for Exploration	Mar 7, 2024	continuous-controlContinuous Control	—Unverified
Non-Markovian Control with Gated End-to-End Memory Policy Networks	May 31, 2017	OpenAI GymReinforcement Learning	—Unverified
Offline Inverse Reinforcement Learning	Jun 9, 2021	Data AugmentationImitation Learning	—Unverified
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline	May 4, 2024	Computational EfficiencyMuJoCo	—Unverified
Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error	Dec 26, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
On Combining Expert Demonstrations in Imitation Learning via Optimal Transport	Jul 20, 2023	Imitation LearningOpenAI Gym	—Unverified
Online Robust Policy Learning in the Presence of Unknown Adversaries	Jul 16, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Asymptotic Analysis of Sample-averaged Q-learning	Oct 14, 2024	OpenAI GymQ-Learning	—Unverified
Optimism is All You Need: Model-Based Imitation Learning From Observation Alone	Mar 9, 2021	AllImitation Learning	—Unverified
Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning	Mar 21, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified
Optimizing Sensor Redundancy in Sequential Decision-Making Problems	Dec 10, 2024	Decision MakingOpenAI Gym	—Unverified
Photonic Quantum Policy Learning in OpenAI Gym	Aug 29, 2021	BIG-bench Machine Learningcontinuous-control	—Unverified
Policy Gradient using Weak Derivatives for Reinforcement Learning	Apr 9, 2020	OpenAI Gymreinforcement-learning	—Unverified
Population-coding and Dynamic-neurons improved Spiking Actor Network for Reinforcement Learning	Jun 15, 2021	Deep Reinforcement LearningOpenAI Gym	—Unverified

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified