OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 382 papers

Title	Date	Tasks	Status
Neural-encoding Human Experts' Domain Knowledge to Warm Start Reinforcement Learning	Feb 15, 2019	Deep Reinforcement LearningImitation Learning	CodeCode Available
GRAC: Self-Guided and Self-Regularized Actor-Critic	Sep 18, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available
Unified Distributed Environment	May 14, 2022	OpenAI Gymreinforcement-learning	CodeCode Available
Provably Efficient Imitation Learning from Observation Alone	May 27, 2019	Imitation LearningOpenAI Gym	CodeCode Available
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available
Proximal Distilled Evolutionary Reinforcement Learning	Jun 24, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Generative Adversarial Neuroevolution for Control Behaviour Imitation	Apr 3, 2023	Imitation LearningOpenAI Gym	CodeCode Available
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available
Towards Interactive Training of Non-Player Characters in Video Games	Jun 3, 2019	Imitation LearningOpenAI Gym	CodeCode Available
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available
Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot Policy Imitation	Jun 23, 2023	Few-Shot Image ClassificationFew-Shot Imitation Learning	CodeCode Available
Investigating the Performance and Reliability, of the Q-Learning Algorithm in Various Unknown Environments	Dec 19, 2023	OpenAI GymPathfinder	CodeCode Available
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
GAN Q-learning	May 13, 2018	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available
SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems	May 7, 2024	CPUGPU	CodeCode Available
Collaborative Deep Reinforcement Learning	Feb 19, 2017	Deep Reinforcement LearningKnowledge Distillation	CodeCode Available
Catastrophic Interference in Reinforcement Learning: A Solution Based on Context Division and Knowledge Distillation	Sep 1, 2021	Deep Reinforcement LearningGeneral Reinforcement Learning	CodeCode Available
Self-Supervised State-Control through Intrinsic Mutual Information Rewards	Sep 25, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Bridging Dimensions: Confident Reachability for High-Dimensional Controllers	Nov 8, 2023	Knowledge DistillationOpenAI Gym	CodeCode Available
BindsNET: A machine learning-oriented spiking neural networks library in Python	Jun 4, 2018	BIG-bench Machine LearningCPU	CodeCode Available
Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction	Mar 3, 2021	continuous-controlContinuous Control	CodeCode Available
Flappy Hummingbird: An Open Source Dynamic Simulation of Flapping Wing Robots and Animals	Feb 25, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Faults in Deep Reinforcement Learning Programs: A Taxonomy and A Detection Approach	Jan 1, 2021	Deep Reinforcement LearningFault Detection	CodeCode Available
Towards Generalization and Simplicity in Continuous Control	Mar 8, 2017	continuous-controlContinuous Control	CodeCode Available
Evolutionary learning of interpretable decision trees	Dec 14, 2020	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available
Visual Transfer between Atari Games using Competitive Reinforcement Learning	Sep 2, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
Quantum Deep Reinforcement Learning for Robot Navigation Tasks	Feb 24, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available
VacSIM: Learning Effective Strategies for COVID-19 Vaccine Distribution using Reinforcement Learning	Sep 14, 2020	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available
Signal Novelty Detection as an Intrinsic Reward for Robotics	Apr 14, 2023	AcrobotAnomaly Detection	CodeCode Available
Sim-Env: Decoupling OpenAI Gym Environments from Simulation Models	Feb 19, 2021	OpenAI Gymreinforcement-learning	CodeCode Available
Optimizing Attention and Cognitive Control Costs Using Temporally-Layered Architectures	May 30, 2023	continuous-controlContinuous Control	CodeCode Available
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods	Sep 22, 2021	continuous-controlContinuous Control	CodeCode Available
Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning	Jul 5, 2023	OpenAI Gymreinforcement-learning	CodeCode Available
Advances in Experience Replay	May 15, 2018	OpenAI Gym	CodeCode Available
Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning	Sep 10, 2024	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Discrete Action On-Policy Learning with Action-Value Critic	Feb 10, 2020	OpenAI GymReinforcement Learning	CodeCode Available
MDP environments for the OpenAI Gym	Sep 26, 2017	OpenAI Gymreinforcement-learning	CodeCode Available
SLM Lab: A Comprehensive Benchmark and Modular Software Framework for Reproducible Deep Reinforcement Learning	Dec 28, 2019	Atari GamesDeep Reinforcement Learning	CodeCode Available
MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning	Sep 17, 2019	MuJoCoOpenAI Gym	CodeCode Available
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available
Recurrent Predictive State Policy Networks	Mar 5, 2018	OpenAI GymReinforcement Learning	CodeCode Available
A novel DDPG method with prioritized experience replay	Oct 1, 2017	continuous-controlContinuous Control	CodeCode Available
The PlayStation Reinforcement Learning Environment (PSXLE)	Dec 12, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and Inverse Learning	Mar 31, 2023	OpenAI Gym	CodeCode Available
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic	Feb 24, 2021	Deep Reinforcement LearningMotion Planning	CodeCode Available
Active inference: demystified and compared	Sep 24, 2019	Atari GamesOpenAI Gym	CodeCode Available
Andes_gym: A Versatile Environment for Deep Reinforcement Learning in Power Systems	Mar 2, 2022	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Deep Reinforcement Learning with Feedback-based Exploration	Mar 14, 2019	continuous-controlContinuous Control	CodeCode Available
Deep Reinforcement Learning for Playing 2.5D Fighting Games	May 5, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces	Feb 20, 2024	Decision MakingOffline RL	CodeCode Available

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified