OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 382 papers

Title	Date	Tasks	Status	Hype
Mitigating Plasticity Loss in Continual Reinforcement Learning by Reducing Churn	May 31, 2025	Continual LearningOpenAI Gym	—Unverified	0
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym	May 28, 2025	OpenAI GymReinforcement Learning (RL)	CodeCode Available	0
STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation	May 27, 2025	D4RLDenoising	—Unverified	0
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM	May 16, 2025	Language ModelingLanguage Modelling	CodeCode Available	0
ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks	May 16, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
IN-RIL: Interleaved Reinforcement and Imitation Learning for Policy Fine-Tuning	May 15, 2025	Efficient ExplorationImitation Learning	CodeCode Available	0
Mining-Gym: A Configurable RL Benchmarking Environment for Truck Dispatch Scheduling	Mar 24, 2025	BenchmarkingOpenAI Gym	CodeCode Available	0
Optimizing 2D+1 Packing in Constrained Environments Using Deep Reinforcement Learning	Mar 21, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Low-cost Real-world Implementation of the Swing-up Pendulum for Deep Reinforcement Learning Experiments	Mar 14, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Value-Based Deep RL Scales Predictably	Feb 6, 2025	OpenAI Gym	—Unverified	0
Illuminating Spaces: Deep Reinforcement Learning and Laser-Wall Partitioning for Architectural Layout Generation	Feb 6, 2025	Deep Reinforcement LearningLayout Design	—Unverified	0
Session-Level Dynamic Ad Load Optimization using Offline Robust Reinforcement Learning	Jan 9, 2025	OpenAI Gym	—Unverified	0
Robustness Evaluation of Offline Reinforcement Learning for Robot Control Against Action Perturbations	Dec 25, 2024	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning	Dec 18, 2024	Model-based Reinforcement LearningOpenAI Gym	—Unverified	0
A quantum-classical reinforcement learning model to play Atari games	Dec 11, 2024	Atari GamesBenchmarking	CodeCode Available	0
Optimizing Sensor Redundancy in Sequential Decision-Making Problems	Dec 10, 2024	Decision MakingOpenAI Gym	—Unverified	0
Creating Hierarchical Dispositions of Needs in an Agent	Nov 23, 2024	OpenAI GymPendulum-v1	CodeCode Available	0
A Multi-Agent Reinforcement Learning Testbed for Cognitive Radio Applications	Oct 28, 2024	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified	0
Asymptotic Analysis of Sample-averaged Q-learning	Oct 14, 2024	OpenAI GymQ-Learning	—Unverified	0
The Smart Buildings Control Suite: A Diverse Open Source Benchmark to Evaluate and Scale HVAC Control Policies for Sustainability	Oct 2, 2024	Model Predictive ControlOffline RL	—Unverified	0
MAGICS: Adversarial RL with Minimax Actors Guided by Implicit Critic Stackelberg for Convergent Neural Synthesis of Robot Safety	Sep 20, 2024	OpenAI GymReinforcement Learning (RL)	—Unverified	0
Double Successive Over-Relaxation Q-Learning with an Extension to Deep Reinforcement Learning	Sep 10, 2024	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	0
HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis	Aug 16, 2024	Cancer ClassificationOpenAI Gym	CodeCode Available	0
Adaptive Planning with Generative Models under Uncertainty	Aug 2, 2024	Autonomous NavigationDecision Making	—Unverified	0
Enhancing Hardware Fault Tolerance in Machines with Reinforcement Learning Policy Gradient Algorithms	Jul 21, 2024	Continual LearningOpenAI Gym	—Unverified	0
A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning	Jul 19, 2024	OpenAI Gym	—Unverified	0
Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning	Jun 4, 2024	MambaOpenAI Gym	CodeCode Available	1
OMPO: A Unified Framework for RL under Policy and Dynamics Shifts	May 29, 2024	Domain AdaptationOpenAI Gym	CodeCode Available	1
Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow	May 22, 2024	IngenuityMuJoCo	CodeCode Available	1
Traffic control using intelligent timing of traffic lights with reinforcement learning technique and real-time processing of surveillance camera images	May 22, 2024	ManagementOpenAI Gym	—Unverified	0
Decision Mamba Architectures	May 13, 2024	D4RLImitation Learning	CodeCode Available	0
SwiftRL: Towards Efficient Reinforcement Learning on Real Processing-In-Memory Systems	May 7, 2024	CPUGPU	CodeCode Available	0
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline	May 4, 2024	Computational EfficiencyMuJoCo	—Unverified	0
Airlift Challenge: A Competition for Optimizing Cargo Delivery	Apr 26, 2024	OpenAI Gym	—Unverified	0
Enhancing Privacy and Security of Autonomous UAV Navigation	Apr 26, 2024	Autonomous NavigationDisaster Response	—Unverified	0
HomeLabGym: A real-world testbed for home energy management systems	Apr 22, 2024	energy managementManagement	—Unverified	0
Noisy Spiking Actor Network for Exploration	Mar 7, 2024	continuous-controlContinuous Control	—Unverified	0
QF-tuner: Breaking Tradition in Reinforcement Learning	Feb 26, 2024	OpenAI GymQ-Learning	—Unverified	0
MORE-3S:Multimodal-based Offline Reinforcement Learning with Shared Semantic Spaces	Feb 20, 2024	Decision MakingOffline RL	CodeCode Available	0
Easy as ABCs: Unifying Boltzmann Q-Learning and Counterfactual Regret Minimization	Feb 19, 2024	counterfactualOpenAI Gym	—Unverified	0
Scilab-RL: A software framework for efficient reinforcement learning and cognitive modeling research	Jan 25, 2024	Data VisualizationHyperparameter Optimization	—Unverified	0
MultiSlot ReRanker: A Generic Model-based Re-Ranking Framework in Recommendation Systems	Jan 11, 2024	DiversityOpenAI Gym	—Unverified	0
Decision Making in Non-Stationary Environments with Policy-Augmented Search	Jan 6, 2024	Decision MakingDecision Making Under Uncertainty	CodeCode Available	0
A Closed-Loop Multi-perspective Visual Servoing Approach with Reinforcement Learning	Dec 25, 2023	OpenAI Gymreinforcement-learning	—Unverified	0
RFRL Gym: A Reinforcement Learning Testbed for Cognitive Radio Applications	Dec 20, 2023	OpenAI Gymreinforcement-learning	CodeCode Available	1
Investigating the Performance and Reliability, of the Q-Learning Algorithm in Various Unknown Environments	Dec 19, 2023	OpenAI GymPathfinder	CodeCode Available	0
Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations	Dec 15, 2023	OpenAI Gymreinforcement-learning	CodeCode Available	1
LLF-Bench: Benchmark for Interactive Learning from Language Feedback	Dec 11, 2023	Information RetrievalOpenAI Gym	CodeCode Available	1
Efficient Parallel Reinforcement Learning Framework using the Reactor Model	Dec 7, 2023	OpenAI GymQ-Learning	CodeCode Available	0
Can language agents be alternatives to PPO? A Preliminary Empirical Study On OpenAI Gym	Dec 6, 2023	BenchmarkingDecision Making	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified