OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 382 papers

Title	Date	Tasks	Status	Score
Reinforcement Learning with Quantum Variational Circuits	Aug 15, 2020	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	5
Continuous-action Reinforcement Learning for Playing Racing Games: Comparing SPG to PPO	Jan 15, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	5
A novel DDPG method with prioritized experience replay	Oct 1, 2017	continuous-controlContinuous Control	CodeCode Available	5
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available	5
Towards Interactive Training of Non-Player Characters in Video Games	Jun 3, 2019	Imitation LearningOpenAI Gym	CodeCode Available	5
Constrained Policy Gradient Method for Safe and Fast Reinforcement Learning: a Neural Tangent Kernel Based Approach	Jul 19, 2021	OpenAI Gym	CodeCode Available	5
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available	5
Investigating the Performance and Reliability, of the Q-Learning Algorithm in Various Unknown Environments	Dec 19, 2023	OpenAI GymPathfinder	CodeCode Available	5
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available	5
Collaborative Deep Reinforcement Learning	Feb 19, 2017	Deep Reinforcement LearningKnowledge Distillation	CodeCode Available	5
Evolutionary learning of interpretable decision trees	Dec 14, 2020	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available	5
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available	5
Andes_gym: A Versatile Environment for Deep Reinforcement Learning in Power Systems	Mar 2, 2022	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods	Sep 22, 2021	continuous-controlContinuous Control	CodeCode Available	5
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym	May 28, 2025	OpenAI GymReinforcement Learning (RL)	CodeCode Available	5
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	5
Decision Mamba Architectures	May 13, 2024	D4RLImitation Learning	CodeCode Available	5
GRAC: Self-Guided and Self-Regularized Actor-Critic	Sep 18, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
Generative Adversarial Neuroevolution for Control Behaviour Imitation	Apr 3, 2023	Imitation LearningOpenAI Gym	CodeCode Available	5
Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning	Nov 16, 2023	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available	5
GAN Q-learning	May 13, 2018	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available	5
Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot Policy Imitation	Jun 23, 2023	Few-Shot Image ClassificationFew-Shot Imitation Learning	CodeCode Available	5
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available	5

Show:10 25 50

← PrevPage 6 of 16Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified