OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 382 papers

Title	Date	Tasks	Status
Switching Isotropic and Directional Exploration with Parameter Space Noise in Deep Reinforcement Learning	Sep 18, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified
Taming an autonomous surface vehicle for path following and collision avoidance using deep reinforcement learning	Dec 18, 2019	Collision Avoidancecontinuous-control	—Unverified
Teaching a Robot to Walk Using Reinforcement Learning	Dec 13, 2021	OpenAI GymQ-Learning	—Unverified
Towards Brain-inspired System: Deep Recurrent Reinforcement Learning for Simulated Self-driving Agent	Mar 29, 2019	Decision MakingOpenAI Gym	—Unverified
Towards Characterizing Divergence in Deep Q-Learning	Mar 21, 2019	continuous-controlContinuous Control	—Unverified
Towards Combining On-Off-Policy Methods for Real-World Applications	Apr 24, 2019	OpenAI GymPosition	—Unverified
Towards Physically Safe Reinforcement Learning under Supervision	Jan 19, 2019	OpenAI Gymreinforcement-learning	—Unverified
Traffic control using intelligent timing of traffic lights with reinforcement learning technique and real-time processing of surveillance camera images	May 22, 2024	ManagementOpenAI Gym	—Unverified
Transferring Domain Knowledge with an Adviser in Continuous Tasks	Feb 16, 2021	OpenAI Gymreinforcement-learning	—Unverified
Untangling Braids with Multi-agent Q-Learning	Sep 29, 2021	OpenAI GymQ-Learning	—Unverified
Utilizing Skipped Frames in Action Repeats via Pseudo-Actions	May 7, 2021	continuous-controlContinuous Control	—Unverified
Value-Based Deep RL Scales Predictably	Feb 6, 2025	OpenAI Gym	—Unverified
VisualEnv: visual Gym environments with Blender	Nov 15, 2021	OpenAI Gymreinforcement-learning	—Unverified
Way Off-Policy Batch Deep Reinforcement Learning of Human Preferences in Dialog	Jan 1, 2020	Deep Reinforcement LearningOpenAI Gym	—Unverified
Membership Inference Attacks Against Temporally Correlated Data in Deep Reinforcement Learning	Sep 8, 2021	Adversarial Attackcontinuous-control	—Unverified
Zap Q-Learning With Nonlinear Function Approximation	Oct 11, 2019	OpenAI GymQ-Learning	—Unverified
Gym-preCICE: Reinforcement Learning Environments for Active Flow Control	May 3, 2023	OpenAI Gymreinforcement-learning	—Unverified
Gym-saturation: an OpenAI Gym environment for saturation provers	Mar 9, 2022	OpenAI GymReinforcement Learning (RL)	—Unverified
gym-saturation: Gymnasium environments for saturation provers (System description)	Sep 16, 2023	OpenAI Gymreinforcement-learning	—Unverified
HoME: a Household Multimodal Environment	Nov 29, 2017	OpenAI Gymreinforcement-learning	—Unverified
HomeLabGym: A real-world testbed for home energy management systems	Apr 22, 2024	energy managementManagement	—Unverified
Human AI interaction loop training: New approach for interactive reinforcement learning	Mar 9, 2020	Decision MakingImitation Learning	—Unverified
Hybrid Policies Using Inverse Rewards for Reinforcement Learning	Sep 27, 2018	OpenAI GymQ-Learning	—Unverified
Hypothesis Driven Coordinate Ascent for Reinforcement Learning	Sep 29, 2021	MuJoCoOpenAI Gym	—Unverified
Illuminating Spaces: Deep Reinforcement Learning and Laser-Wall Partitioning for Architectural Layout Generation	Feb 6, 2025	Deep Reinforcement LearningLayout Design	—Unverified
Imaginary Hindsight Experience Replay: Curious Model-based Learning for Sparse Reward Tasks	Oct 5, 2021	FetchPush-v1Model-based Reinforcement Learning	—Unverified
Implementing Reinforcement Learning Algorithms in Retail Supply Chains with OpenAI Gym Toolkit	Apr 27, 2021	Demand ForecastingManagement	—Unverified
Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques	Sep 25, 2023	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Implicit Two-Tower Policies	Aug 2, 2022	OpenAI GymVocal Bursts Valence Prediction	—Unverified
Improving Reinforcement Learning with Human Assistance: An Argument for Human Subject Studies with HIPPO Gym	Feb 2, 2021	OpenAI GymReinforcement Learning (RL)	—Unverified
Influence-Based Reinforcement Learning for Intrinsically-Motivated Agents	Aug 28, 2021	counterfactualMulti-agent Reinforcement Learning	—Unverified
In Support of Over-Parametrization in Deep Reinforcement Learning: an Empirical Study	May 17, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
gym-gazebo2, a toolkit for reinforcement learning using ROS 2 and Gazebo	Mar 14, 2019	BenchmarkingOpenAI Gym	CodeCode Available
Gym-Ignition: Reproducible Robotic Simulations for Reinforcement Learning	Nov 5, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
A quantum-classical reinforcement learning model to play Atari games	Dec 11, 2024	Atari GamesBenchmarking	CodeCode Available
Control with adaptive Q-learning	Nov 3, 2020	OpenAI GymQ-Learning	CodeCode Available
Continuous Control With Ensemble Deep Deterministic Policy Gradients	Nov 30, 2021	continuous-controlContinuous Control	CodeCode Available
HDDLGym: A Tool for Studying Multi-Agent Hierarchical Problems Defined in HDDL with OpenAI Gym	May 28, 2025	OpenAI GymReinforcement Learning (RL)	CodeCode Available
Decision Mamba Architectures	May 13, 2024	D4RLImitation Learning	CodeCode Available
HistoGym: A Reinforcement Learning Environment for Histopathological Image Analysis	Aug 16, 2024	Cancer ClassificationOpenAI Gym	CodeCode Available
Continuous-action Reinforcement Learning for Playing Racing Games: Comparing SPG to PPO	Jan 15, 2020	OpenAI Gymreinforcement-learning	CodeCode Available
Safe and Robust Experience Sharing for Deterministic Policy Gradient Algorithms	Jul 27, 2022	continuous-controlContinuous Control	CodeCode Available
QFlip: An Adaptive Reinforcement Learning Strategy for the FlipIt Security Game	Jun 27, 2019	OpenAI GymQ-Learning	CodeCode Available
Playing Games in the Dark: An approach for cross-modality transfer in reinforcement learning	Nov 28, 2019	OpenAI Gymreinforcement-learning	CodeCode Available
V-MPO: On-Policy Maximum a Posteriori Policy Optimization for Discrete and Continuous Control	Sep 26, 2019	continuous-controlContinuous Control	CodeCode Available
Policy Information Capacity: Information-Theoretic Measure for Task Complexity in Deep Reinforcement Learning	Mar 23, 2021	continuous-controlContinuous Control	CodeCode Available
Mimicking Better by Matching the Approximate Action Distribution	Jun 16, 2023	Imitation LearningMuJoCo	CodeCode Available
Constrained Policy Gradient Method for Safe and Fast Reinforcement Learning: a Neural Tangent Kernel Based Approach	Jul 19, 2021	OpenAI Gym	CodeCode Available
Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning	Nov 16, 2023	Deep Reinforcement LearningOpenAI Gym	CodeCode Available
Project proposal: A modular reinforcement learning based automated theorem prover	Sep 6, 2022	OpenAI Gymreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 6 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified