OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 382 papers

Title	Date	Tasks	Status	Hype
Deep Q-Network Based Multi-agent Reinforcement Learning with Binary Action Agents	Aug 6, 2020	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified	0
EasyRL: A Simple and Extensible Reinforcement Learning Framework	Aug 4, 2020	OpenAI Gymreinforcement-learning	—Unverified	0
Integrating Deep Reinforcement Learning Networks with Health System Simulations	Jul 21, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1
Implicit Distributional Reinforcement Learning	Jul 13, 2020	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available	1
OtoWorld: Towards Learning to Separate by Learning to Move	Jul 12, 2020	Audio Source SeparationNavigate	CodeCode Available	1
EVO-RL: Evolutionary-Driven Reinforcement Learning	Jul 9, 2020	OpenAI Gymreinforcement-learning	—Unverified	0
Concept and the implementation of a tool to convert industry 4.0 environments modeled as FSM to an OpenAI Gym wrapper	Jun 29, 2020	OpenAI GymQ-Learning	—Unverified	0
Experience Replay with Likelihood-free Importance Weights	Jun 23, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	1
Robust Reinforcement Learning using Least Squares Policy Iteration with Provable Performance Guarantees	Jun 20, 2020	OpenAI Gymreinforcement-learning	—Unverified	0
WD3: Taming the Estimation Bias in Deep Reinforcement Learning	Jun 18, 2020	continuous-controlContinuous Control	—Unverified	0
Data Driven Control with Learned Dynamics: Model-Based versus Model-Free Approach	Jun 16, 2020	continuous-controlContinuous Control	—Unverified	0
Balancing a CartPole System with Reinforcement Learning -- A Tutorial	Jun 8, 2020	OpenAI GymQ-Learning	—Unverified	0
Refined Continuous Control of DDPG Actors via Parametrised Activation	Jun 4, 2020	continuous-controlContinuous Control	—Unverified	0
An FPGA-Based On-Device Reinforcement Learning Approach using Online Sequential Learning	May 10, 2020	L2 RegularizationOpenAI Gym	—Unverified	0
Reinforcement Learning with Augmented Data	Apr 30, 2020	Data AugmentationOpenAI Gym	CodeCode Available	1
Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing	Apr 16, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	0
Policy Gradient using Weak Derivatives for Reinforcement Learning	Apr 9, 2020	OpenAI Gymreinforcement-learning	—Unverified	0
Model-based actor-critic: GAN (model generator) + DRL (actor-critic) => AGI	Apr 4, 2020	modelOpenAI Gym	—Unverified	0
Neural Game Engine: Accurate learning of generalizable forward models from pixels	Mar 23, 2020	GPUModel-based Reinforcement Learning	CodeCode Available	1
Human AI interaction loop training: New approach for interactive reinforcement learning	Mar 9, 2020	Decision MakingImitation Learning	—Unverified	0
Contextual Policy Transfer in Reinforcement Learning Domains via Deep Mixtures-of-Experts	Feb 29, 2020	Mixture-of-ExpertsOpenAI Gym	—Unverified	0
State-only Imitation with Transition Dynamics Mismatch	Feb 27, 2020	Imitation LearningMuJoCo	CodeCode Available	1
Behavior Cloning in OpenAI using Case Based Reasoning	Feb 23, 2020	OpenAI Gym	—Unverified	0
Adaptive Temporal Difference Learning with Linear Function Approximation	Feb 20, 2020	OpenAI Gymreinforcement-learning	—Unverified	0
Adaptive Experience Selection for Policy Gradient	Feb 17, 2020	continuous-controlContinuous Control	—Unverified	0
PDDLGym: Gym Environments from PDDL Problems	Feb 15, 2020	Decision MakingOpenAI Gym	CodeCode Available	1
Discrete Action On-Policy Learning with Action-Value Critic	Feb 10, 2020	OpenAI GymReinforcement Learning	CodeCode Available	0
Continuous-action Reinforcement Learning for Playing Racing Games: Comparing SPG to PPO	Jan 15, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	0
Sample-based Distributional Policy Gradient	Jan 8, 2020	Distributional Reinforcement LearningOpenAI Gym	—Unverified	0
Blue River Controls: A toolkit for Reinforcement Learning Control Systems on Hardware	Jan 7, 2020	OpenAI Gymreinforcement-learning	CodeCode Available	1
Adaptive Droplet Routing in Digital Microfluidic Biochips Using Deep Reinforcement Learning	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Way Off-Policy Batch Deep Reinforcement Learning of Human Preferences in Dialog	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
SLM Lab: A Comprehensive Benchmark and Modular Software Framework for Reproducible Deep Reinforcement Learning	Dec 28, 2019	Atari GamesDeep Reinforcement Learning	CodeCode Available	0
Taming an autonomous surface vehicle for path following and collision avoidance using deep reinforcement learning	Dec 18, 2019	Collision Avoidancecontinuous-control	—Unverified	0
Sepsis World Model: A MIMIC-based OpenAI Gym "World Model" Simulator for Sepsis Treatment	Dec 15, 2019	modelOpenAI Gym	—Unverified	0
The PlayStation Reinforcement Learning Environment (PSXLE)	Dec 12, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	0
Playing Games in the Dark: An approach for cross-modality transfer in reinforcement learning	Nov 28, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	0
Accelerating Reinforcement Learning with Suboptimal Guidance	Nov 21, 2019	OpenAI Gymreinforcement-learning	—Unverified	0
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	0
Challenging On Car Racing Problem from OpenAI gym	Nov 2, 2019	Car Racingcontinuous-control	—Unverified	0
Towards a Reinforcement Learning Environment Toolbox for Intelligent Electric Motor Control	Oct 21, 2019	Model Predictive ControlOpenAI Gym	CodeCode Available	0
Zap Q-Learning With Nonlinear Function Approximation	Oct 11, 2019	OpenAI GymQ-Learning	—Unverified	0
MVFST-RL: An Asynchronous RL Framework for Congestion Control with Delayed Actions	Oct 9, 2019	Network Congestion ControlOpenAI Gym	CodeCode Available	0
TorchBeast: A PyTorch Platform for Distributed RL	Oct 8, 2019	OpenAI GymReinforcement Learning	CodeCode Available	0
Advantage-Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Oct 1, 2019	continuous-controlContinuous Control	CodeCode Available	1
SURREAL-System: Fully-Integrated Stack for Distributed Deep Reinforcement Learning	Sep 27, 2019	CPUDeep Reinforcement Learning	—Unverified	0
V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control	Sep 26, 2019	continuous-controlContinuous Control	CodeCode Available	0
Advantage Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Sep 25, 2019	continuous-controlContinuous Control	—Unverified	0
Self-Supervised State-Control through Intrinsic Mutual Information Rewards	Sep 25, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	0
MoET: Interpretable and Verifiable Reinforcement Learning via Mixture of Expert Trees	Sep 25, 2019	Deep Reinforcement LearningGame of Go	—Unverified	0

Show:10 25 50

← PrevPage 6 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified