OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 382 papers

Title	Date	Tasks	Status
VisualEnv: visual Gym environments with Blender	Nov 15, 2021	OpenAI Gymreinforcement-learning	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Human Preferences in Dialog	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified
Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning	Sep 8, 2021	Adversarial Attackcontinuous-control	—Unverified
Decision-Making in Reinforcement Learning	Jun 1, 2019	Decision MakingDeep Reinforcement Learning	—Unverified
Zap Q-Learning With Nonlinear Function Approximation	Oct 11, 2019	OpenAI GymQ-Learning	—Unverified
myGym: Modular Toolkit for Visuomotor Robotic Tasks	Dec 21, 2020	Imitation LearningOpenAI Gym	—Unverified
Adaptive Planning with Generative Models under Uncertainty	Aug 2, 2024	Autonomous NavigationDecision Making	—Unverified
ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks	May 16, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified
Accelerating Reinforcement Learning with Suboptimal Guidance	Nov 21, 2019	OpenAI Gymreinforcement-learning	—Unverified
A Closed-Loop Multi-perspective Visual Servoing Approach with Reinforcement Learning	Dec 25, 2023	OpenAI Gymreinforcement-learning	—Unverified
A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning	Jul 19, 2024	OpenAI Gym	—Unverified
Active Inference in Hebbian Learning Networks	Jun 8, 2023	OpenAI GymQ-Learning	—Unverified
Adaptive Droplet Routing in Digital Microfluidic Biochips Using Deep Reinforcement Learning	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified
Adaptive Experience Selection for Policy Gradient	Feb 17, 2020	continuous-controlContinuous Control	—Unverified
Adaptive Temporal Difference Learning with Linear Function Approximation	Feb 20, 2020	OpenAI Gymreinforcement-learning	—Unverified
A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a Platform	Sep 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
A Dual Memory Structure for Efficient Use of Replay Memory in Deep Reinforcement Learning	Jul 15, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
Advantage Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Sep 25, 2019	continuous-controlContinuous Control	—Unverified
Adversarial Body Shape Search for Legged Robots	May 20, 2022	Adversarial AttackDeep Reinforcement Learning	—Unverified
Adversarial Exploration Strategy for Self-Supervised Imitation Learning	May 1, 2019	Deep Reinforcement LearningImitation Learning	—Unverified
Adversarial joint attacks on legged robots	May 20, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Affine Transport for Sim-to-Real Domain Adaptation	May 25, 2021	Domain AdaptationOpenAI Gym	—Unverified
A Generalised Inverse Reinforcement Learning Framework	May 25, 2021	OpenAI Gymreinforcement-learning	—Unverified
Airlift Challenge: A Competition for Optimizing Cargo Delivery	Apr 26, 2024	OpenAI Gym	—Unverified
A Multi-Agent Reinforcement Learning Testbed for Cognitive Radio Applications	Oct 28, 2024	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
An Analysis of Reinforcement Learning for Malaria Control	Jul 19, 2021	Multi-Armed BanditsOpenAI Gym	—Unverified
An FPGA-Based On-Device Reinforcement Learning Approach using Online Sequential Learning	May 10, 2020	L2 RegularizationOpenAI Gym	—Unverified
An Independent Study of Reinforcement Learning and Autonomous Driving	Aug 20, 2021	Autonomous DrivingOpenAI Gym	—Unverified
An Oracle and Observations for the OpenAI Gym / ALE Freeway Environment	Sep 2, 2021	OpenAI Gymreinforcement-learning	—Unverified
AppBuddy: Learning to Accomplish Tasks in Mobile Apps via Reinforcement Learning	May 31, 2021	OpenAI Gymreinforcement-learning	—Unverified
A Strategy-Oriented Bayesian Soft Actor-Critic Model	Mar 7, 2023	continuous-controlContinuous Control	—Unverified
A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning	Jan 1, 2022	continuous-controlContinuous Control	—Unverified
Towards Understanding Asynchronous Advantage Actor-critic: Convergence and Linear Speedup	Dec 31, 2020	Atari GamesOpenAI Gym	—Unverified
Asynchronous Deep Double Duelling Q-Learning for Trading-Signal Execution in Limit Order Book Markets	Jan 20, 2023	Deep Reinforcement LearningManagement	—Unverified
Attention Loss Adjusted Prioritized Experience Replay	Sep 13, 2023	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints	Feb 2, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified
AWD3: Dynamic Reduction of the Estimation Bias	Nov 12, 2021	continuous-controlContinuous Control	—Unverified
Balancing a CartPole System with Reinforcement Learning -- A Tutorial	Jun 8, 2020	OpenAI GymQ-Learning	—Unverified
Behavior Cloning in OpenAI using Case Based Reasoning	Feb 23, 2020	OpenAI Gym	—Unverified
Benchmarking Algorithms from Machine Learning for Low-Budget Black-Box Optimization	Sep 29, 2021	Bayesian OptimizationBenchmarking	—Unverified
BlockPuzzle - A Challenge in Physical Reasoning and Generalization for Robot Learning	Nov 30, 2018	Imitation LearningMuJoCo	—Unverified
Causal Repair of Learning-enabled Cyber-physical Systems	Apr 6, 2023	counterfactualDiagnostic	—Unverified
Challenging On Car Racing Problem from OpenAI gym	Nov 2, 2019	Car Racingcontinuous-control	—Unverified
Closing the loop between neural network simulators and the OpenAI Gym	Sep 17, 2017	OpenAI Gymreinforcement-learning	—Unverified
Cluster-based Sampling in Hindsight Experience Replay for Robotic Tasks (Student Abstract)	Aug 31, 2022	ClusteringMulti-Goal Reinforcement Learning	—Unverified
Combining Model-based and Model-free RL via Multi-step Control Variates	Jan 1, 2018	continuous-controlContinuous Control	—Unverified
Concept and the implementation of a tool to convert industry 4.0 environments modeled as FSM to an OpenAI Gym wrapper	Jun 29, 2020	OpenAI GymQ-Learning	—Unverified
Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts	Feb 29, 2020	Mixture-of-ExpertsOpenAI Gym	—Unverified
Continuous-time Value Function Approximation in Reproducing Kernel Hilbert Spaces	Jun 8, 2018	Atari GamesGaussian Processes	—Unverified
Controlling an Inverted Pendulum with Policy Gradient Methods-A Tutorial	May 17, 2021	OpenAI GymPolicy Gradient Methods	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified