OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 382 papers

Title	Date	Tasks	Status
Neuroevolution of Recurrent Architectures on Control Tasks	Apr 3, 2023	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available
Generative Adversarial Neuroevolution for Control Behaviour Imitation	Apr 3, 2023	Imitation LearningOpenAI Gym	CodeCode Available
Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and Inverse Learning	Mar 31, 2023	OpenAI Gym	CodeCode Available
Graph Decision Transformer	Mar 7, 2023	Offline RLOpenAI Gym	—Unverified
A Strategy-Oriented Bayesian Soft Actor-Critic Model	Mar 7, 2023	continuous-controlContinuous Control	—Unverified
Local Environment Poisoning Attacks on Federated Reinforcement Learning	Mar 5, 2023	Federated LearningOpenAI Gym	—Unverified
Double A3C: Deep Reinforcement Learning on OpenAI Gym Games	Mar 4, 2023	Atari GamesDeep Reinforcement Learning	—Unverified
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints	Feb 2, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified
Neural Episodic Control with State Abstraction	Jan 27, 2023	Deep Reinforcement LearningMuJoCo	—Unverified
Asynchronous Deep Double Duelling Q-Learning for Trading-Signal Execution in Limit Order Book Markets	Jan 20, 2023	Deep Reinforcement LearningManagement	—Unverified
Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error	Dec 26, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Enhancing Cyber Resilience of Networked Microgrids using Vertical Federated Reinforcement Learning	Dec 17, 2022	OpenAI Gymreinforcement-learning	—Unverified
Robust Policy Optimization in Deep Reinforcement Learning	Dec 14, 2022	continuous-controlContinuous Control	CodeCode Available
CT-DQN: Control-Tutored Deep Reinforcement Learning	Dec 2, 2022	Car RacingDeep Reinforcement Learning	—Unverified
Sufficient Exploration for Convex Q-learning	Oct 17, 2022	OpenAI GymQ-Learning	—Unverified
Long N-step Surrogate Stage Reward to Reduce Variances of Deep Reinforcement Learning in Complex Problems	Oct 10, 2022	continuous-controlContinuous Control	—Unverified
Elastic Step DQN: A novel multi-step algorithm to alleviate overestimation in Deep QNetworks	Oct 7, 2022	OpenAI Gym	—Unverified
Reinforcement Learning Approach for Multi-Agent Flexible Scheduling Problems	Oct 7, 2022	Combinatorial OptimizationDecision Making	—Unverified
Distilling Deep RL Models Into Interpretable Neuro-Fuzzy Systems	Sep 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
A Deep Reinforcement Learning Strategy for UAV Autonomous Landing on a Platform	Sep 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Project proposal: A modular reinforcement learning based automated theorem prover	Sep 6, 2022	OpenAI Gymreinforcement-learning	CodeCode Available
Cluster-based Sampling in Hindsight Experience Replay for Robotic Tasks (Student Abstract)	Aug 31, 2022	ClusteringMulti-Goal Reinforcement Learning	—Unverified
MARTI-4: new model of human brain, considering neocortex and basal ganglia -- learns to play Atari game by reinforcement learning on a single CPU	Aug 18, 2022	CPUOpenAI Gym	—Unverified
Quality Diversity Evolutionary Learning of Decision Trees	Aug 17, 2022	DiversityOpenAI Gym	—Unverified
Implicit Two-Tower Policies	Aug 2, 2022	OpenAI GymVocal Bursts Valence Prediction	—Unverified
RangL: A Reinforcement Learning Competition Platform	Jul 28, 2022	OpenAI Gymreinforcement-learning	—Unverified
Safe and Robust Experience Sharing for Deterministic Policy Gradient Algorithms	Jul 27, 2022	continuous-controlContinuous Control	CodeCode Available
Modelling non-reinforced preferences using selective attention	Jul 25, 2022	OpenAI Gym	—Unverified
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies	Jun 12, 2022	continuous-controlContinuous Control	—Unverified
Adversarial Body Shape Search for Legged Robots	May 20, 2022	Adversarial AttackDeep Reinforcement Learning	—Unverified
Adversarial joint attacks on legged robots	May 20, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Unified Distributed Environment	May 14, 2022	OpenAI Gymreinforcement-learning	CodeCode Available
MR-iNet Gym: Framework for Edge Deployment of Deep Reinforcement Learning on Embedded Software Defined Radio	Apr 9, 2022	Deep Reinforcement LearningGPU	—Unverified
Remember and Forget Experience Replay for Multi-Agent Reinforcement Learning	Mar 24, 2022	continuous-controlContinuous Control	—Unverified
Multitask Neuroevolution for Reinforcement Learning with Long and Short Episodes	Mar 21, 2022	continuous-controlContinuous Control	—Unverified
Gym-saturation: an OpenAI Gym environment for saturation provers	Mar 9, 2022	OpenAI GymReinforcement Learning (RL)	—Unverified
Andes_gym: A Versatile Environment for Deep Reinforcement Learning in Power Systems	Mar 2, 2022	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Provably Efficient Convergence of Primal-Dual Actor-Critic with Nonlinear Function Approximation	Feb 28, 2022	continuous-controlContinuous Control	—Unverified
Quantum Deep Reinforcement Learning for Robot Navigation Tasks	Feb 24, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available
skrl: Modular and Flexible Library for Reinforcement Learning	Feb 8, 2022	Isaac Gym PreviewOmniverse Isaac Gym	—Unverified
Soft Actor-Critic with Inhibitory Networks for Faster Retraining	Feb 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Differentially Private Temporal Difference Learning with Stochastic Nonconvex-Strongly-Concave Optimization	Jan 25, 2022	OpenAI Gym	—Unverified
Deep Q-learning: a robust control approach	Jan 21, 2022	OpenAI GymQ-Learning	CodeCode Available
Direct Mutation and Crossover in Genetic Algorithms Applied to Reinforcement Learning Tasks	Jan 13, 2022	OpenAI Gymreinforcement-learning	—Unverified
A Surrogate-Assisted Controller for Expensive Evolutionary Reinforcement Learning	Jan 1, 2022	continuous-controlContinuous Control	—Unverified
Multi-Agent Reinforcement Learning via Adaptive Kalman Temporal Difference and Successor Representation	Dec 30, 2021	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
Teaching a Robot to Walk Using Reinforcement Learning	Dec 13, 2021	OpenAI GymQ-Learning	—Unverified
Control-Tutored Reinforcement Learning: Towards the Integration of Data-Driven and Model-Based Control	Dec 11, 2021	OpenAI GymQ-Learning	—Unverified
Continuous Control With Ensemble Deep Deterministic Policy Gradients	Nov 30, 2021	continuous-controlContinuous Control	CodeCode Available
Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available

Show:10 25 50

← PrevPage 4 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified