OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 382 papers

Title	Date	Tasks	Status
Towards a Reinforcement Learning Environment Toolbox for Intelligent Electric Motor Control	Oct 21, 2019	Model Predictive ControlOpenAI Gym	CodeCode Available
Zap Q-Learning With Nonlinear Function Approximation	Oct 11, 2019	OpenAI GymQ-Learning	—Unverified
MVFST-RL: An Asynchronous RL Framework for Congestion Control with Delayed Actions	Oct 9, 2019	Network Congestion ControlOpenAI Gym	CodeCode Available
TorchBeast: A PyTorch Platform for Distributed RL	Oct 8, 2019	OpenAI GymReinforcement Learning	CodeCode Available
SURREAL-System: Fully-Integrated Stack for Distributed Deep Reinforcement Learning	Sep 27, 2019	CPUDeep Reinforcement Learning	—Unverified
V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control	Sep 26, 2019	continuous-controlContinuous Control	CodeCode Available
Self-Supervised State-Control through Intrinsic Mutual Information Rewards	Sep 25, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
MoET: Interpretable and Verifiable Reinforcement Learning via Mixture of Expert Trees	Sep 25, 2019	Deep Reinforcement LearningGame of Go	—Unverified
Advantage Weighted Regression: Simple and Scalable Off-Policy Reinforcement Learning	Sep 25, 2019	continuous-controlContinuous Control	—Unverified
Active inference: demystified and compared	Sep 24, 2019	Atari GamesOpenAI Gym	CodeCode Available
Invariant Transform Experience Replay: Data Augmentation for Deep Reinforcement Learning	Sep 24, 2019	Data AugmentationDeep Reinforcement Learning	CodeCode Available
MDP Playground: An Analysis and Debug Testbed for Reinforcement Learning	Sep 17, 2019	MuJoCoOpenAI Gym	CodeCode Available
Recommendation System-based Upper Confidence Bound for Online Advertising	Sep 9, 2019	OpenAI GymProduct Recommendation	—Unverified
Arena: a toolkit for Multi-Agent Reinforcement Learning	Jul 20, 2019	Multi-agent Reinforcement LearningOpenAI Gym	CodeCode Available
A Dual Memory Structure for Efficient Use of Replay Memory in Deep Reinforcement Learning	Jul 15, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
QFlip: An Adaptive Reinforcement Learning Strategy for the FlipIt Security Game	Jun 27, 2019	OpenAI GymQ-Learning	CodeCode Available
Proximal Distilled Evolutionary Reinforcement Learning	Jun 24, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
Reward Prediction Error as an Exploration Objective in Deep RL	Jun 19, 2019	Atari GamesContinuous Control	—Unverified
Towards Interactive Training of Non-Player Characters in Video Games	Jun 3, 2019	Imitation LearningOpenAI Gym	CodeCode Available
Decision-Making in Reinforcement Learning	Jun 1, 2019	Decision MakingDeep Reinforcement Learning	—Unverified
Provably Efficient Imitation Learning from Observation Alone	May 27, 2019	Imitation LearningOpenAI Gym	CodeCode Available
Deep Q-Learning with Q-Matrix Transfer Learning for Novel Fire Evacuation Environment	May 23, 2019	OpenAI GymQ-Learning	—Unverified
In Support of Over-Parametrization in Deep Reinforcement Learning: an Empirical Study	May 17, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
Reinforcement Learning for Robotics and Control with Active Uncertainty Reduction	May 15, 2019	ManagementOpenAI Gym	—Unverified
Design of Artificial Intelligence Agents for Games using Deep Reinforcement Learning	May 10, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
Deep Ordinal Reinforcement Learning	May 6, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Adversarial Exploration Strategy for Self-Supervised Imitation Learning	May 1, 2019	Deep Reinforcement LearningImitation Learning	—Unverified
SIMILE: Introducing Sequential Information towards More Effective Imitation Learning	May 1, 2019	Imitation LearningOpenAI Gym	—Unverified
Towards Combining On-Off-Policy Methods for Real-World Applications	Apr 24, 2019	OpenAI GymPosition	—Unverified
Evolving Neural Networks in Reinforcement Learning by means of UMDAc	Apr 24, 2019	OpenAI Gymreinforcement-learning	—Unverified
Towards Brain-inspired System: Deep Recurrent Reinforcement Learning for Simulated Self-driving Agent	Mar 29, 2019	Decision MakingOpenAI Gym	—Unverified
DQN with model-based exploration: efficient learning on environments with sparse rewards	Mar 22, 2019	Atari GamesOpenAI Gym	—Unverified
Towards Characterizing Divergence in Deep Q-Learning	Mar 21, 2019	continuous-controlContinuous Control	—Unverified
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available
Deep Reinforcement Learning with Feedback-based Exploration	Mar 14, 2019	continuous-controlContinuous Control	CodeCode Available
Learning Gaussian Policies from Corrective Human Feedback	Mar 12, 2019	continuous-controlContinuous Control	—Unverified
Deep Active Localization	Mar 5, 2019	OpenAI GymReinforcement Learning	CodeCode Available
Flappy Hummingbird: An Open Source Dynamic Simulation of Flapping Wing Robots and Animals	Feb 25, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Curiosity-Driven Experience Prioritization via Density Estimation	Feb 20, 2019	Density EstimationOpenAI Gym	—Unverified
Neural-encoding Human Experts' Domain Knowledge to Warm Start Reinforcement Learning	Feb 15, 2019	Deep Reinforcement LearningImitation Learning	CodeCode Available
Learn a Prior for RHEA for Better Online Planning	Feb 14, 2019	Evolutionary AlgorithmsMuJoCo	—Unverified
Towards Physically Safe Reinforcement Learning under Supervision	Jan 19, 2019	OpenAI Gymreinforcement-learning	—Unverified
Deconfounding Reinforcement Learning in Observational Settings	Dec 26, 2018	OpenAI Gymreinforcement-learning	CodeCode Available
Iroko: A Framework to Prototype Reinforcement Learning for Data Center Traffic Control	Dec 24, 2018	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Relative Entropy Regularized Policy Iteration	Dec 5, 2018	continuous-controlContinuous Control	CodeCode Available
BlockPuzzle - A Challenge in Physical Reasoning and Generalization for Robot Learning	Nov 30, 2018	Imitation LearningMuJoCo	—Unverified
Relative Importance Sampling for off-Policy Actor-Critic in Deep Reinforcement Learning	Oct 30, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Sequential Learning of Movement Prediction in Dynamic Environments using LSTM Autoencoder	Oct 12, 2018	DecoderNavigate	—Unverified
Reinforcement Learning for Improving Agent Design	Oct 9, 2018	OpenAI Gymreinforcement-learning	CodeCode Available
Hybrid Policies Using Inverse Rewards for Reinforcement Learning	Sep 27, 2018	OpenAI GymQ-Learning	—Unverified

Show:10 25 50

← PrevPage 7 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified