OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 382 papers

Title	Date	Tasks	Status	Hype	Score
MoËT: Mixture of Expert Trees and its Application to Verifiable Reinforcement Learning	Jun 16, 2019	Game of GoImitation Learning	CodeCode Available	1	5
Integrating Deep Reinforcement Learning Networks with Health System Simulations	Jul 21, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1	5
CropGym: a Reinforcement Learning Environment for Crop Management	Apr 9, 2021	ManagementOpenAI Gym	CodeCode Available	1	5
Experience Replay with Likelihood-free Importance Weights	Jun 23, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1	5
A Benchmark Environment Motivated by Industrial Control Problems	Sep 27, 2017	OpenAI GymReinforcement Learning	CodeCode Available	1	5
CaiRL: A High-Performance Reinforcement Learning Environment Toolkit	Oct 3, 2022	OpenAI Gymreinforcement-learning	CodeCode Available	1	5
Towards Real-World Deployment of Reinforcement Learning for Traffic Signal Control	Mar 30, 2021	CPUOpenAI Gym	CodeCode Available	1	5
MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement Learning and Procedurally Generated Environments	Jul 21, 2021	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1	5
LongiControl: A Reinforcement Learning Environment for Longitudinal Vehicle Control	Feb 6, 2021	Autonomous DrivingOpenAI Gym	CodeCode Available	1	5
Blue River Controls: A toolkit for Reinforcement Learning Control Systems on Hardware	Jan 7, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1	5
Bayesian Soft Actor-Critic: A Directed Acyclic Strategy Graph Based Deep Reinforcement Learning	Aug 11, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1	5
ABIDES-Gym: Gym Environments for Multi-Agent Discrete Event Simulation and Application to Financial Markets	Oct 27, 2021	OpenAI GymReinforcement Learning (RL)	CodeCode Available	1	5
Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias	Oct 12, 2023	D4RLOffline RL	CodeCode Available	1	5
Can language agents be alternatives to PPO? A Preliminary Empirical Study On OpenAI Gym	Dec 6, 2023	BenchmarkingDecision Making	CodeCode Available	1	5
Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow	May 22, 2024	IngenuityMuJoCo	CodeCode Available	1	5
Deep Recurrent Q-Learning for Partially Observable MDPs	Jul 23, 2015	Atari GamesDeep Reinforcement Learning	CodeCode Available	1	5
Monte Carlo Tree Search for Asymmetric Trees	May 23, 2018	Atari GamesOpenAI Gym	CodeCode Available	1	5
CityLearn: Standardizing Research in Multi-Agent Reinforcement Learning for Demand Response and Urban Energy Management	Dec 18, 2020	energy managementManagement	CodeCode Available	1	5
NavRep: Unsupervised Representations for Reinforcement Learning of Robot Navigation in Dynamic Human Environments	Dec 8, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1	5
PushWorld: A benchmark for manipulation planning with tools and movable obstacles	Jan 24, 2023	OpenAI GymStarcraft	CodeCode Available	1	5
Deep Reinforcement Learning with Population-Coded Spiking Neural Network for Continuous Control	Oct 19, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Deluca -- A Differentiable Control Library: Environments, Methods, and Benchmarking	Feb 19, 2021	BenchmarkingOpenAI Gym	CodeCode Available	1	5
OMPO: A Unified Framework for RL under Policy and Dynamics Shifts	May 29, 2024	Domain AdaptationOpenAI Gym	CodeCode Available	1	5
CompilerGym: Robust, Performant Compiler Optimization Environments for AI Research	Sep 17, 2021	Compiler OptimizationOpenAI Gym	CodeCode Available	1	5
An Open-Source Multi-Goal Reinforcement Learning Environment for Robotic Manipulation with Pybullet	May 12, 2021	MuJoCoMulti-Goal Reinforcement Learning	CodeCode Available	1	5
Avalanche RL: a Continual Reinforcement Learning Library	Feb 28, 2022	Continual LearningOpenAI Gym	CodeCode Available	1	5
PDDLGym: Gym Environments from PDDL Problems	Feb 15, 2020	Decision MakingOpenAI Gym	CodeCode Available	1	5
Bridging Dimensions: Confident Reachability for High-Dimensional Controllers	Nov 8, 2023	Knowledge DistillationOpenAI Gym	CodeCode Available	0	5
Amortized Variational Deep Q Network	Nov 3, 2020	Deep Reinforcement LearningEfficient Exploration	CodeCode Available	0	5
AIXIjs: A Software Demo for General Reinforcement Learning	May 22, 2017	General Reinforcement LearningOpenAI Gym	CodeCode Available	0	5
BindsNET: A machine learning-oriented spiking neural networks library in Python	Jun 4, 2018	BIG-bench Machine LearningCPU	CodeCode Available	0	5
BF++: a language for general-purpose program synthesis	Jan 23, 2021	Decision MakingOpenAI Gym	CodeCode Available	0	5
Benchmark Environments for Multitask Learning in Continuous Domains	Aug 14, 2017	Lifelong learningOpenAI Gym	CodeCode Available	0	5
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available	0	5
Beating Atari with Natural Language Guided Reinforcement Learning	Apr 18, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available	0	5
Investigating the Performance and Reliability, of the Q-Learning Algorithm in Various Unknown Environments	Dec 19, 2023	OpenAI GymPathfinder	CodeCode Available	0	5
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available	0	5
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available	0	5
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	0	5
HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis	Aug 16, 2024	Cancer ClassificationOpenAI Gym	CodeCode Available	0	5
Deep Active Localization	Mar 5, 2019	OpenAI GymReinforcement Learning	CodeCode Available	0	5
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym	May 28, 2025	OpenAI GymReinforcement Learning (RL)	CodeCode Available	0	5
Decision Making in Non-Stationary Environments with Policy-Augmented Search	Jan 6, 2024	Decision MakingDecision Making Under Uncertainty	CodeCode Available	0	5
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available	0	5
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	0	5
Decision Mamba Architectures	May 13, 2024	D4RLImitation Learning	CodeCode Available	0	5
Deconfounding Reinforcement Learning in Observational Settings	Dec 26, 2018	OpenAI Gymreinforcement-learning	CodeCode Available	0	5
Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction	Mar 3, 2021	continuous-controlContinuous Control	CodeCode Available	0	5
Flappy Hummingbird: An Open Source Dynamic Simulation of Flapping Wing Robots and Animals	Feb 25, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	0	5

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified