OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–175 of 382 papers

Title	Date	Tasks	Status	Score
Evolutionary learning of interpretable decision trees	Dec 14, 2020	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available	5
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available	5
MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces	Feb 20, 2024	Decision MakingOffline RL	CodeCode Available	5
Neurogenetic Programming Framework for Explainable Reinforcement Learning	Feb 8, 2021	OpenAI Gymreinforcement-learning	CodeCode Available	5
Andes_gym: A Versatile Environment for Deep Reinforcement Learning in Power Systems	Mar 2, 2022	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Flappy Hummingbird: An Open Source Dynamic Simulation of Flapping Wing Robots and Animals	Feb 25, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction	Mar 3, 2021	continuous-controlContinuous Control	CodeCode Available	5
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods	Sep 22, 2021	continuous-controlContinuous Control	CodeCode Available	5
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available	5
Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available	5
Investigating the Performance and Reliability, of the Q-Learning Algorithm in Various Unknown Environments	Dec 19, 2023	OpenAI GymPathfinder	CodeCode Available	5
Catastrophic Interference in Reinforcement Learning: A Solution Based on Context Division and Knowledge Distillation	Sep 1, 2021	Deep Reinforcement LearningGeneral Reinforcement Learning	CodeCode Available	5
Continuous Control With Ensemble Deep Deterministic Policy Gradients	Nov 30, 2021	continuous-controlContinuous Control	CodeCode Available	5
Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning	Nov 16, 2023	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available	5
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available	5
Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing	Apr 16, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	5
Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning	Jul 5, 2023	OpenAI Gymreinforcement-learning	CodeCode Available	5
Efficient Parallel Reinforcement Learning Framework using the Reactor Model	Dec 7, 2023	OpenAI GymQ-Learning	CodeCode Available	5
Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning	Sep 10, 2024	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Decision Mamba Architectures	May 13, 2024	D4RLImitation Learning	CodeCode Available	5
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available	5
Control with adaptive Q-learning	Nov 3, 2020	OpenAI GymQ-Learning	CodeCode Available	5
Quantum Deep Reinforcement Learning for Robot Navigation Tasks	Feb 24, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 7 of 16Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified