OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 276–300 of 382 papers

Title	Date	Tasks	Status
Imaginary Hindsight Experience Replay: Curious Model-based Learning for Sparse Reward Tasks	Oct 5, 2021	FetchPush-v1Model-based Reinforcement Learning	—Unverified
Implementing Reinforcement Learning Algorithms in Retail Supply Chains with OpenAI Gym Toolkit	Apr 27, 2021	Demand ForecastingManagement	—Unverified
Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques	Sep 25, 2023	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Implicit Two-Tower Policies	Aug 2, 2022	OpenAI GymVocal Bursts Valence Prediction	—Unverified
Improving Reinforcement Learning with Human Assistance: An Argument for Human Subject Studies with HIPPO Gym	Feb 2, 2021	OpenAI GymReinforcement Learning (RL)	—Unverified
Influence-Based Reinforcement Learning for Intrinsically-Motivated Agents	Aug 28, 2021	counterfactualMulti-agent Reinforcement Learning	—Unverified
In Support of Over-Parametrization in Deep Reinforcement Learning: an Empirical Study	May 17, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
A quantum-classical reinforcement learning model to play Atari games	Dec 11, 2024	Atari GamesBenchmarking	CodeCode Available
Control with adaptive Q-learning	Nov 3, 2020	OpenAI GymQ-Learning	CodeCode Available
Continuous Control With Ensemble Deep Deterministic Policy Gradients	Nov 30, 2021	continuous-controlContinuous Control	CodeCode Available
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym	May 28, 2025	OpenAI GymReinforcement Learning (RL)	CodeCode Available
Decision Mamba Architectures	May 13, 2024	D4RLImitation Learning	CodeCode Available
HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis	Aug 16, 2024	Cancer ClassificationOpenAI Gym	CodeCode Available
Continuous-action Reinforcement Learning for Playing Racing Games: Comparing SPG to PPO	Jan 15, 2020	OpenAI Gymreinforcement-learning	CodeCode Available
Safe and Robust Experience Sharing for Deterministic Policy Gradient Algorithms	Jul 27, 2022	continuous-controlContinuous Control	CodeCode Available
QFlip: An Adaptive Reinforcement Learning Strategy for the FlipIt Security Game	Jun 27, 2019	OpenAI GymQ-Learning	CodeCode Available
Playing Games in the Dark: An approach for cross-modality transfer in reinforcement learning	Nov 28, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control	Sep 26, 2019	continuous-controlContinuous Control	CodeCode Available
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning	Mar 23, 2021	continuous-controlContinuous Control	CodeCode Available
Mimicking Better by Matching the Approximate Action Distribution	Jun 16, 2023	Imitation LearningMuJoCo	CodeCode Available
Constrained Policy Gradient Method for Safe and Fast Reinforcement Learning: a Neural Tangent Kernel Based Approach	Jul 19, 2021	OpenAI Gym	CodeCode Available
Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning	Nov 16, 2023	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Project proposal: A modular reinforcement learning based automated theorem prover	Sep 6, 2022	OpenAI Gymreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 12 of 16Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified