OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–325 of 382 papers

Title	Date	Tasks	Status
Neural-encoding Human Experts' Domain Knowledge to Warm Start Reinforcement Learning	Feb 15, 2019	Deep Reinforcement LearningImitation Learning	CodeCode Available
GRAC: Self-Guided and Self-Regularized Actor-Critic	Sep 18, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available
Unified Distributed Environment	May 14, 2022	OpenAI Gymreinforcement-learning	CodeCode Available
Provably Efficient Imitation Learning from Observation Alone	May 27, 2019	Imitation LearningOpenAI Gym	CodeCode Available
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available
Proximal Distilled Evolutionary Reinforcement Learning	Jun 24, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Generative Adversarial Neuroevolution for Control Behaviour Imitation	Apr 3, 2023	Imitation LearningOpenAI Gym	CodeCode Available
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available
Towards Interactive Training of Non-Player Characters in Video Games	Jun 3, 2019	Imitation LearningOpenAI Gym	CodeCode Available
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available
Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot Policy Imitation	Jun 23, 2023	Few-Shot Image ClassificationFew-Shot Imitation Learning	CodeCode Available
Investigating the Performance and Reliability, of the Q-Learning Algorithm in Various Unknown Environments	Dec 19, 2023	OpenAI GymPathfinder	CodeCode Available
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
GAN Q-learning	May 13, 2018	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available
SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems	May 7, 2024	CPUGPU	CodeCode Available
Collaborative Deep Reinforcement Learning	Feb 19, 2017	Deep Reinforcement LearningKnowledge Distillation	CodeCode Available
Catastrophic Interference in Reinforcement Learning: A Solution Based on Context Division and Knowledge Distillation	Sep 1, 2021	Deep Reinforcement LearningGeneral Reinforcement Learning	CodeCode Available
Self-Supervised State-Control through Intrinsic Mutual Information Rewards	Sep 25, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Bridging Dimensions: Confident Reachability for High-Dimensional Controllers	Nov 8, 2023	Knowledge DistillationOpenAI Gym	CodeCode Available
BindsNET: A machine learning-oriented spiking neural networks library in Python	Jun 4, 2018	BIG-bench Machine LearningCPU	CodeCode Available
Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction	Mar 3, 2021	continuous-controlContinuous Control	CodeCode Available
Flappy Hummingbird: An Open Source Dynamic Simulation of Flapping Wing Robots and Animals	Feb 25, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Faults in Deep Reinforcement Learning Programs: A Taxonomy and A Detection Approach	Jan 1, 2021	Deep Reinforcement LearningFault Detection	CodeCode Available
Towards Generalization and Simplicity in Continuous Control	Mar 8, 2017	continuous-controlContinuous Control	CodeCode Available
Evolutionary learning of interpretable decision trees	Dec 14, 2020	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available

Show:10 25 50

← PrevPage 13 of 16Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified