OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 382 papers

Title	Date	Tasks	Status	Score
Deconfounding Reinforcement Learning in Observational Settings	Dec 26, 2018	OpenAI Gymreinforcement-learning	CodeCode Available	5
Deep Q-learning: a robust control approach	Jan 21, 2022	OpenAI GymQ-Learning	CodeCode Available	5
Decision Making in Non-Stationary Environments with Policy-Augmented Search	Jan 6, 2024	Decision MakingDecision Making Under Uncertainty	CodeCode Available	5
Neurogenetic Programming Framework for Explainable Reinforcement Learning	Feb 8, 2021	OpenAI Gymreinforcement-learning	CodeCode Available	5
QFlip: An Adaptive Reinforcement Learning Strategy for the FlipIt Security Game	Jun 27, 2019	OpenAI GymQ-Learning	CodeCode Available	5
Efficient Parallel Reinforcement Learning Framework using the Reactor Model	Dec 7, 2023	OpenAI GymQ-Learning	CodeCode Available	5
Proximal Distilled Evolutionary Reinforcement Learning	Jun 24, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	5
Deep Reinforcement Learning for General Video Game AI	Jun 6, 2018	Atari GamesBenchmarking	CodeCode Available	5
Deep Reinforcement Learning for Playing 2.5D Fighting Games	May 5, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Deep Reinforcement Learning with Feedback-based Exploration	Mar 14, 2019	continuous-controlContinuous Control	CodeCode Available	5
MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces	Feb 20, 2024	Decision MakingOffline RL	CodeCode Available	5
Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research	Feb 26, 2018	continuous-controlContinuous Control	CodeCode Available	5
MVFST-RL: An Asynchronous RL Framework for Congestion Control with Delayed Actions	Oct 9, 2019	Network Congestion ControlOpenAI Gym	CodeCode Available	5
Creating Hierarchical Dispositions of Needs in an Agent	Nov 23, 2024	OpenAI GymPendulum-v1	CodeCode Available	5
Arena: a toolkit for Multi-Agent Reinforcement Learning	Jul 20, 2019	Multi-agent Reinforcement LearningOpenAI Gym	CodeCode Available	5
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic	Feb 24, 2021	Deep Reinforcement LearningMotion Planning	CodeCode Available	5
Control with adaptive Q-learning	Nov 3, 2020	OpenAI GymQ-Learning	CodeCode Available	5
MDP environments for the OpenAI Gym	Sep 26, 2017	OpenAI Gymreinforcement-learning	CodeCode Available	5
A quantum-classical reinforcement learning model to play Atari games	Dec 11, 2024	Atari GamesBenchmarking	CodeCode Available	5
Advances in Experience Replay	May 15, 2018	OpenAI Gym	CodeCode Available	5
MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning	Sep 17, 2019	MuJoCoOpenAI Gym	CodeCode Available	5
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM	May 16, 2025	Language ModelingLanguage Modelling	CodeCode Available	5
Continuous Control With Ensemble Deep Deterministic Policy Gradients	Nov 30, 2021	continuous-controlContinuous Control	CodeCode Available	5
Discrete Action On-Policy Learning with Action-Value Critic	Feb 10, 2020	OpenAI GymReinforcement Learning	CodeCode Available	5
Bridging Dimensions: Confident Reachability for High-Dimensional Controllers	Nov 8, 2023	Knowledge DistillationOpenAI Gym	CodeCode Available	5
Reinforcement Learning with Quantum Variational Circuits	Aug 15, 2020	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	5
Continuous-action Reinforcement Learning for Playing Racing Games: Comparing SPG to PPO	Jan 15, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	5
A novel DDPG method with prioritized experience replay	Oct 1, 2017	continuous-controlContinuous Control	CodeCode Available	5
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available	5
Towards Interactive Training of Non-Player Characters in Video Games	Jun 3, 2019	Imitation LearningOpenAI Gym	CodeCode Available	5
Constrained Policy Gradient Method for Safe and Fast Reinforcement Learning: a Neural Tangent Kernel Based Approach	Jul 19, 2021	OpenAI Gym	CodeCode Available	5
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available	5
Investigating the Performance and Reliability, of the Q-Learning Algorithm in Various Unknown Environments	Dec 19, 2023	OpenAI GymPathfinder	CodeCode Available	5
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available	5
Collaborative Deep Reinforcement Learning	Feb 19, 2017	Deep Reinforcement LearningKnowledge Distillation	CodeCode Available	5
Evolutionary learning of interpretable decision trees	Dec 14, 2020	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available	5
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available	5
Andes_gym: A Versatile Environment for Deep Reinforcement Learning in Power Systems	Mar 2, 2022	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Estimation Error Correction in Deep Reinforcement Learning for Deterministic Actor-Critic Methods	Sep 22, 2021	continuous-controlContinuous Control	CodeCode Available	5
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym	May 28, 2025	OpenAI GymReinforcement Learning (RL)	CodeCode Available	5
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	5
Decision Mamba Architectures	May 13, 2024	D4RLImitation Learning	CodeCode Available	5
GRAC: Self-Guided and Self-Regularized Actor-Critic	Sep 18, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
Generative Adversarial Neuroevolution for Control Behaviour Imitation	Apr 3, 2023	Imitation LearningOpenAI Gym	CodeCode Available	5
Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning	Nov 16, 2023	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available	5
GAN Q-learning	May 13, 2018	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available	5
Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot Policy Imitation	Jun 23, 2023	Few-Shot Image ClassificationFew-Shot Imitation Learning	CodeCode Available	5
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available	5

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified