OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–150 of 382 papers

Title	Date	Tasks	Status
Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques	Sep 25, 2023	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints	Feb 2, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified
Implicit Two-Tower Policies	Aug 2, 2022	OpenAI GymVocal Bursts Valence Prediction	—Unverified
Deep Q-Learning with Q-Matrix Transfer Learning for Novel Fire Evacuation Environment	May 23, 2019	OpenAI GymQ-Learning	—Unverified
Deep Q-Network Based Multi-agent Reinforcement Learning with Binary Action Agents	Aug 6, 2020	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
Deep Learning of Koopman Representation for Control	Oct 15, 2020	Deep LearningOpenAI Gym	—Unverified
Deep Reinforcement Learning for ESG financial portfolio management	Jun 19, 2023	Decision MakingDeep Reinforcement Learning	—Unverified
Affine Transport for Sim-to-Real Domain Adaptation	May 25, 2021	Domain AdaptationOpenAI Gym	—Unverified
Behavior Cloning in OpenAI using Case Based Reasoning	Feb 23, 2020	OpenAI Gym	—Unverified
ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks	May 16, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified
Adversarial Exploration Strategy for Self-Supervised Imitation Learning	May 1, 2019	Deep Reinforcement LearningImitation Learning	—Unverified
Attention Loss Adjusted Prioritized Experience Replay	Sep 13, 2023	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning	Jul 19, 2024	OpenAI Gym	—Unverified
Benchmarking Algorithms from Machine Learning for Low-Budget Black-Box Optimization	Sep 29, 2021	Bayesian OptimizationBenchmarking	—Unverified
Design of Artificial Intelligence Agents for Games using Deep Reinforcement Learning	May 10, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
Asynchronous Deep Double Duelling Q-Learning for Trading-Signal Execution in Limit Order Book Markets	Jan 20, 2023	Deep Reinforcement LearningManagement	—Unverified
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies	Jun 12, 2022	continuous-controlContinuous Control	—Unverified
Adversarial Body Shape Search for Legged Robots	May 20, 2022	Adversarial AttackDeep Reinforcement Learning	—Unverified
Improving Reinforcement Learning with Human Assistance: An Argument for Human Subject Studies with HIPPO Gym	Feb 2, 2021	OpenAI GymReinforcement Learning (RL)	—Unverified
Differentially Private Temporal Difference Learning with Stochastic Nonconvex-Strongly-Concave Optimization	Jan 25, 2022	OpenAI Gym	—Unverified
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning	Jun 1, 2017	continuous-controlContinuous Control	—Unverified
Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning	May 17, 2023	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
Learning Gaussian Policies from Corrective Human Feedback	Mar 12, 2019	continuous-controlContinuous Control	—Unverified
Distilling Deep RL Models Into Interpretable Neuro-Fuzzy Systems	Sep 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Distributionally Robust Statistical Verification with Imprecise Neural Networks	Aug 28, 2023	Active LearningMuJoCo	—Unverified
Double A3C: Deep Reinforcement Learning on OpenAI Gym Games	Mar 4, 2023	Atari GamesDeep Reinforcement Learning	—Unverified
Data Driven Control with Learned Dynamics: Model-Based versus Model-Free Approach	Jun 16, 2020	continuous-controlContinuous Control	—Unverified
Curiosity-Driven Experience Prioritization via Density Estimation	Feb 20, 2019	Density EstimationOpenAI Gym	—Unverified
Towards Understanding Asynchronous Advantage Actor-critic: Convergence and Linear Speedup	Dec 31, 2020	Atari GamesOpenAI Gym	—Unverified
CT-DQN: Control-Tutored Deep Reinforcement Learning	Dec 2, 2022	Car RacingDeep Reinforcement Learning	—Unverified
CrowdPlay: Crowdsourcing human demonstration data for offline learning in Atari games	Sep 29, 2021	Atari GamesDecision Making	—Unverified
A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning	Jan 1, 2022	continuous-controlContinuous Control	—Unverified
A Strategy-Oriented Bayesian Soft Actor-Critic Model	Mar 7, 2023	continuous-controlContinuous Control	—Unverified
Advantage Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Sep 25, 2019	continuous-controlContinuous Control	—Unverified
Correcting discount-factor mismatch in on-policy policy gradient methods	Jun 23, 2023	OpenAI GymPolicy Gradient Methods	—Unverified
Hypothesis Driven Coordinate Ascent for Reinforcement Learning	Sep 29, 2021	MuJoCoOpenAI Gym	—Unverified
Illuminating Spaces: Deep Reinforcement Learning and Laser-Wall Partitioning for Architectural Layout Generation	Feb 6, 2025	Deep Reinforcement LearningLayout Design	—Unverified
Control-Tutored Reinforcement Learning: Towards the Integration of Data-Driven and Model-Based Control	Dec 11, 2021	OpenAI GymQ-Learning	—Unverified
HomeLabGym: A real-world testbed for home energy management systems	Apr 22, 2024	energy managementManagement	—Unverified
Controlling an Inverted Pendulum with Policy Gradient Methods-A Tutorial	May 17, 2021	OpenAI GymPolicy Gradient Methods	—Unverified
A Closed-Loop Multi-perspective Visual Servoing Approach with Reinforcement Learning	Dec 25, 2023	OpenAI Gymreinforcement-learning	—Unverified
Human AI interaction loop training: New approach for interactive reinforcement learning	Mar 9, 2020	Decision MakingImitation Learning	—Unverified
Continuous-time Value Function Approximation in Reproducing Kernel Hilbert Spaces	Jun 8, 2018	Atari GamesGaussian Processes	—Unverified
AppBuddy: Learning to Accomplish Tasks in Mobile Apps via Reinforcement Learning	May 31, 2021	OpenAI Gymreinforcement-learning	—Unverified
gym-saturation: Gymnasium environments for saturation provers (System description)	Sep 16, 2023	OpenAI Gymreinforcement-learning	—Unverified
A Dual Memory Structure for Efficient Use of Replay Memory in Deep Reinforcement Learning	Jul 15, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
Decision-Making in Reinforcement Learning	Jun 1, 2019	Decision MakingDeep Reinforcement Learning	—Unverified
HoME: a Household Multimodal Environment	Nov 29, 2017	OpenAI Gymreinforcement-learning	—Unverified
Hybrid Policies Using Inverse Rewards for Reinforcement Learning	Sep 27, 2018	OpenAI GymQ-Learning	—Unverified
Imaginary Hindsight Experience Replay: Curious Model-based Learning for Sparse Reward Tasks	Oct 5, 2021	FetchPush-v1Model-based Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 3 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified