OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 176–200 of 382 papers

Title	Date	Tasks	Status	Score
Beating Atari with Natural Language Guided Reinforcement Learning	Apr 18, 2017	Atari GamesDeep Reinforcement Learning	CodeCode Available	5
Deep Ordinal Reinforcement Learning	May 6, 2019	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	5
Deep Q-learning: a robust control approach	Jan 21, 2022	OpenAI GymQ-Learning	CodeCode Available	5
SIMILE: Introducing Sequential Information towards More Effective Imitation Learning	May 1, 2019	Imitation LearningOpenAI Gym	—Unverified	0
skrl: Modular and Flexible Library for Reinforcement Learning	Feb 8, 2022	Isaac Gym PreviewOmniverse Isaac Gym	—Unverified	0
Soft Actor-Critic with Inhibitory Networks for Faster Retraining	Feb 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
State Distribution-aware Sampling for Deep Q-learning	Apr 23, 2018	Atari GamesOpenAI Gym	—Unverified	0
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning	Aug 28, 2023	D4RLOff-policy evaluation	—Unverified	0
Stealing That Free Lunch: Exposing the Limits of Dyna-Style Reinforcement Learning	Dec 18, 2024	Model-based Reinforcement LearningOpenAI Gym	—Unverified	0
STITCH-OPE: Trajectory Stitching with Guided Diffusion for Off-Policy Evaluation	May 27, 2025	D4RLDenoising	—Unverified	0
Structured Evolution with Compact Architectures for Scalable Policy Optimization	Apr 6, 2018	OpenAI GymText-to-Image Generation	—Unverified	0
Sufficient Exploration for Convex Q-learning	Oct 17, 2022	OpenAI GymQ-Learning	—Unverified	0
SURREAL-System: Fully-Integrated Stack for Distributed Deep Reinforcement Learning	Sep 27, 2019	CPUDeep Reinforcement Learning	—Unverified	0
Switching Isotropic and Directional Exploration with Parameter Space Noise in Deep Reinforcement Learning	Sep 18, 2018	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Taming an autonomous surface vehicle for path following and collision avoidance using deep reinforcement learning	Dec 18, 2019	Collision Avoidancecontinuous-control	—Unverified	0
Teaching a Robot to Walk Using Reinforcement Learning	Dec 13, 2021	OpenAI GymQ-Learning	—Unverified	0
Towards Brain-inspired System: Deep Recurrent Reinforcement Learning for Simulated Self-driving Agent	Mar 29, 2019	Decision MakingOpenAI Gym	—Unverified	0
Towards Characterizing Divergence in Deep Q-Learning	Mar 21, 2019	continuous-controlContinuous Control	—Unverified	0
Towards Combining On-Off-Policy Methods for Real-World Applications	Apr 24, 2019	OpenAI GymPosition	—Unverified	0
Towards Physically Safe Reinforcement Learning under Supervision	Jan 19, 2019	OpenAI Gymreinforcement-learning	—Unverified	0
Traffic control using intelligent timing of traffic lights with reinforcement learning technique and real-time processing of surveillance camera images	May 22, 2024	ManagementOpenAI Gym	—Unverified	0
Transferring Domain Knowledge with an Adviser in Continuous Tasks	Feb 16, 2021	OpenAI Gymreinforcement-learning	—Unverified	0
Untangling Braids with Multi-agent Q-Learning	Sep 29, 2021	OpenAI GymQ-Learning	—Unverified	0
Utilizing Skipped Frames in Action Repeats via Pseudo-Actions	May 7, 2021	continuous-controlContinuous Control	—Unverified	0
Value-Based Deep RL Scales Predictably	Feb 6, 2025	OpenAI Gym	—Unverified	0

Show:10 25 50

← PrevPage 8 of 16Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified