OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 351–382 of 382 papers

Title	Date	Tasks	Status
BF++: a language for general-purpose program synthesis	Jan 23, 2021	Decision MakingOpenAI Gym	CodeCode Available
Reinforcement Learning for Improving Agent Design	Oct 9, 2018	OpenAI Gymreinforcement-learning	CodeCode Available
Deep Reinforcement Learning for General Video Game AI	Jun 6, 2018	Atari GamesBenchmarking	CodeCode Available
Multi-Goal Reinforcement Learning: Challenging Robotics Environments and Request for Research	Feb 26, 2018	continuous-controlContinuous Control	CodeCode Available
Analyzing Reinforcement Learning Benchmarks with Random Weight Guessing	Apr 16, 2020	OpenAI Gymreinforcement-learning	CodeCode Available
MVFST-RL: An Asynchronous RL Framework for Congestion Control with Delayed Actions	Oct 9, 2019	Network Congestion ControlOpenAI Gym	CodeCode Available
Deep Q-learning: a robust control approach	Jan 21, 2022	OpenAI GymQ-Learning	CodeCode Available
Amortized Variational Deep Q Network	Nov 3, 2020	Deep Reinforcement LearningEfficient Exploration	CodeCode Available
Benchmark Environments for Multitask Learning in Continuous Domains	Aug 14, 2017	Lifelong learningOpenAI Gym	CodeCode Available
Reinforcement Learning with Quantum Variational Circuits	Aug 15, 2020	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available
Relative Entropy Regularized Policy Iteration	Dec 5, 2018	continuous-controlContinuous Control	CodeCode Available
Deep Ordinal Reinforcement Learning	May 6, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Neuroevolution of Recurrent Architectures on Control Tasks	Apr 3, 2023	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available
Neurogenetic Programming Framework for Explainable Reinforcement Learning	Feb 8, 2021	OpenAI Gymreinforcement-learning	CodeCode Available
Adaptively Calibrated Critic Estimates for Deep Reinforcement Learning	Nov 24, 2021	continuous-controlContinuous Control	CodeCode Available
Deep Active Localization	Mar 5, 2019	OpenAI GymReinforcement Learning	CodeCode Available
AIXIjs: A Software Demo for General Reinforcement Learning	May 22, 2017	General Reinforcement LearningOpenAI Gym	CodeCode Available
Repairing Learning-Enabled Controllers While Preserving What Works	Nov 6, 2023	OpenAI Gym	CodeCode Available
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM	May 16, 2025	Language ModelingLanguage Modelling	CodeCode Available
Deconfounding Reinforcement Learning in Observational Settings	Dec 26, 2018	OpenAI Gymreinforcement-learning	CodeCode Available
Resolving Implicit Coordination in Multi-Agent Deep Reinforcement Learning with Deep Q-Networks & Game Theory	Dec 8, 2020	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
TorchBeast: A PyTorch Platform for Distributed RL	Oct 8, 2019	OpenAI GymReinforcement Learning	CodeCode Available
Decision Making in Non-Stationary Environments with Policy-Augmented Search	Jan 6, 2024	Decision MakingDecision Making Under Uncertainty	CodeCode Available
Beating Atari with Natural Language Guided Reinforcement Learning	Apr 18, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available
Arena: a toolkit for Multi-Agent Reinforcement Learning	Jul 20, 2019	Multi-agent Reinforcement LearningOpenAI Gym	CodeCode Available
Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving	Jun 5, 2023	Autonomous DrivingMotion Planning	CodeCode Available
Creating Hierarchical Dispositions of Needs in an Agent	Nov 23, 2024	OpenAI GymPendulum-v1	CodeCode Available
Optimality-based Analysis of XCSF Compaction in Discrete Reinforcement Learning	Sep 3, 2020	OpenAI Gymreinforcement-learning	CodeCode Available
MobILE: Model-Based Imitation Learning From Observation Alone	Feb 22, 2021	Imitation Learningmodel	CodeCode Available
Towards a Reinforcement Learning Environment Toolbox for Intelligent Electric Motor Control	Oct 21, 2019	Model Predictive ControlOpenAI Gym	CodeCode Available
Robust Policy Optimization in Deep Reinforcement Learning	Dec 14, 2022	continuous-controlContinuous Control	CodeCode Available
Efficient Parallel Reinforcement Learning Framework using the Reactor Model	Dec 7, 2023	OpenAI GymQ-Learning	CodeCode Available

Show:10 25 50

← PrevPage 8 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified