OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–382 of 382 papers

Title	Date	Tasks	Status
Switching Isotropic and Directional Exploration with Parameter Space Noise in Deep Reinforcement Learning	Sep 18, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Visual Transfer between Atari Games using Competitive Reinforcement Learning	Sep 2, 2018	Atari GamesDeep Reinforcement Learning	CodeCode Available
GeneSys: Enabling Continuous Learning through Neural Network Evolution in Hardware	Aug 3, 2018	CPUGPU	—Unverified
FuzzerGym: A Competitive Framework for Fuzzing and Learning	Jul 19, 2018	Deep Reinforcement LearningFault Detection	—Unverified
Online Robust Policy Learning in the Presence of Unknown Adversaries	Jul 16, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Qualitative Measurements of Policy Discrepancy for Return-Based Deep Q-Network	Jun 14, 2018	OpenAI Gymreinforcement-learning	—Unverified
Continuous-time Value Function Approximation in Reproducing Kernel Hilbert Spaces	Jun 8, 2018	Atari GamesGaussian Processes	—Unverified
Deep Reinforcement Learning for General Video Game AI	Jun 6, 2018	Atari GamesBenchmarking	CodeCode Available
BindsNET: A machine learning-oriented spiking neural networks library in Python	Jun 4, 2018	BIG-bench Machine LearningCPU	CodeCode Available
Intelligent Trainer for Model-Based Reinforcement Learning	May 24, 2018	modelModel-based Reinforcement Learning	CodeCode Available
Advances in Experience Replay	May 15, 2018	OpenAI Gym	CodeCode Available
GAN Q-learning	May 13, 2018	Distributional Reinforcement LearningOpenAI Gym	CodeCode Available
Deep Reinforcement Learning for Playing 2.5D Fighting Games	May 5, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
State Distribution-aware Sampling for Deep Q-learning	Apr 23, 2018	Atari GamesOpenAI Gym	—Unverified
Structured Evolution with Compact Architectures for Scalable Policy Optimization	Apr 6, 2018	OpenAI GymText-to-Image Generation	—Unverified
Recurrent Predictive State Policy Networks	Mar 5, 2018	OpenAI GymReinforcement Learning	CodeCode Available
Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research	Feb 26, 2018	continuous-controlContinuous Control	CodeCode Available
Exploring Deep Recurrent Models with Reinforcement Learning for Molecule Design	Jan 1, 2018	Drug DiscoveryOpenAI Gym	—Unverified
Neuron as an Agent	Jan 1, 2018	counterfactualMulti-agent Reinforcement Learning	—Unverified
Combining Model-based and Model-free RL via Multi-step Control Variates	Jan 1, 2018	continuous-controlContinuous Control	—Unverified
HoME: a Household Multimodal Environment	Nov 29, 2017	OpenAI Gymreinforcement-learning	—Unverified
A novel DDPG method with prioritized experience replay	Oct 1, 2017	continuous-controlContinuous Control	CodeCode Available
MDP environments for the OpenAI Gym	Sep 26, 2017	OpenAI Gymreinforcement-learning	CodeCode Available
Closing the loop between neural network simulators and the OpenAI Gym	Sep 17, 2017	OpenAI Gymreinforcement-learning	—Unverified
Benchmark Environments for Multitask Learning in Continuous Domains	Aug 14, 2017	Lifelong learningOpenAI Gym	CodeCode Available
Investigating Reinforcement Learning Agents for Continuous State Space Environments	Aug 8, 2017	OpenAI GymQ-Learning	—Unverified
Interpolated Policy Gradient: Merging On-Policy and Off-Policy Gradient Estimation for Deep Reinforcement Learning	Jun 1, 2017	continuous-controlContinuous Control	—Unverified
Non-Markovian Control with Gated End-to-End Memory Policy Networks	May 31, 2017	OpenAI GymReinforcement Learning	—Unverified
AIXIjs: A Software Demo for General Reinforcement Learning	May 22, 2017	General Reinforcement LearningOpenAI Gym	CodeCode Available
Beating Atari with Natural Language Guided Reinforcement Learning	Apr 18, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available
Towards Generalization and Simplicity in Continuous Control	Mar 8, 2017	continuous-controlContinuous Control	CodeCode Available
Collaborative Deep Reinforcement Learning	Feb 19, 2017	Deep Reinforcement LearningKnowledge Distillation	CodeCode Available

Show:10 25 50

← PrevPage 8 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified