OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–125 of 382 papers

Title	Date	Tasks	Status
EVO-RL: Evolutionary-Driven Reinforcement Learning	Jul 9, 2020	OpenAI Gymreinforcement-learning	—Unverified
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints	Feb 2, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified
Deep Q Learning from Dynamic Demonstration with Behavioral Cloning	Jan 1, 2021	Deep Reinforcement LearningOpenAI Gym	—Unverified
Deep Q-Learning with Q-Matrix Transfer Learning for Novel Fire Evacuation Environment	May 23, 2019	OpenAI GymQ-Learning	—Unverified
Deep Q-Network Based Multi-agent Reinforcement Learning with Binary Action Agents	Aug 6, 2020	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
Deep Learning of Koopman Representation for Control	Oct 15, 2020	Deep LearningOpenAI Gym	—Unverified
Adversarial Exploration Strategy for Self-Supervised Imitation Learning	May 1, 2019	Deep Reinforcement LearningImitation Learning	—Unverified
Affine Transport for Sim-to-Real Domain Adaptation	May 25, 2021	Domain AdaptationOpenAI Gym	—Unverified
Exact and Cost-Effective Automated Transformation of Neural Network Controllers to Decision Tree Controllers	Apr 11, 2023	Decision MakingOpenAI Gym	—Unverified
ReaCritic: Large Reasoning Transformer-based DRL Critic-model Scaling For Heterogeneous Networks	May 16, 2025	Deep Reinforcement LearningOpenAI Gym	—Unverified
Attention Loss Adjusted Prioritized Experience Replay	Sep 13, 2023	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
A Comprehensive Guide to Combining R and Python code for Data Science, Machine Learning and Reinforcement Learning	Jul 19, 2024	OpenAI Gym	—Unverified
Asynchronous Deep Double Duelling Q-Learning for Trading-Signal Execution in Limit Order Book Markets	Jan 20, 2023	Deep Reinforcement LearningManagement	—Unverified
Benchmarking Algorithms from Machine Learning for Low-Budget Black-Box Optimization	Sep 29, 2021	Bayesian OptimizationBenchmarking	—Unverified
Design of Artificial Intelligence Agents for Games using Deep Reinforcement Learning	May 10, 2019	Deep Reinforcement LearningOpenAI Gym	—Unverified
Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies	Jun 12, 2022	continuous-controlContinuous Control	—Unverified
Adversarial Body Shape Search for Legged Robots	May 20, 2022	Adversarial AttackDeep Reinforcement Learning	—Unverified
Evolving Neural Networks in Reinforcement Learning by means of UMDAc	Apr 24, 2019	OpenAI Gymreinforcement-learning	—Unverified
Experience Replay More When It's a Key Transition in Deep Reinforcement Learning	Sep 29, 2021	Deep Reinforcement LearningOpenAI Gym	—Unverified
Differentially Private Temporal Difference Learning with Stochastic Nonconvex-Strongly-Concave Optimization	Jan 25, 2022	OpenAI Gym	—Unverified
Exploring Deep Recurrent Models with Reinforcement Learning for Molecule Design	Jan 1, 2018	Drug DiscoveryOpenAI Gym	—Unverified
Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning	May 17, 2023	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
gym-saturation: Gymnasium environments for saturation provers (System description)	Sep 16, 2023	OpenAI Gymreinforcement-learning	—Unverified
Distilling Deep RL Models Into Interpretable Neuro-Fuzzy Systems	Sep 7, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified
Data Driven Control with Learned Dynamics: Model-Based versus Model-Free Approach	Jun 16, 2020	continuous-controlContinuous Control	—Unverified

Show:10 25 50

← PrevPage 5 of 16Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified