OpenAI Gym

An open-source toolkit from OpenAI that implements several Reinforcement Learning benchmarks including: classic control, Atari, Robotics and MuJoCo tasks.

(Description by Evolutionary learning of interpretable decision trees)

(Image Credit: OpenAI Gym)

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 382 papers

Title	Date	Tasks	Status	Hype
Controlgym: Large-Scale Control Environments for Benchmarking Reinforcement Learning Algorithms	Nov 30, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1
Resilient Control of Networked Microgrids using Vertical Federated Reinforcement Learning: Designs and Real-Time Test-Bed Validations	Nov 21, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified	0
Guaranteeing Control Requirements via Reward Shaping in Reinforcement Learning	Nov 16, 2023	Deep Reinforcement LearningOpenAI Gym	CodeCode Available	0
Bridging Dimensions: Confident Reachability for High-Dimensional Controllers	Nov 8, 2023	Knowledge DistillationOpenAI Gym	CodeCode Available	0
Repairing Learning-Enabled Controllers While Preserving What Works	Nov 6, 2023	OpenAI Gym	CodeCode Available	0
SDGym: Low-Code Reinforcement Learning Environments using System Dynamics Models	Oct 19, 2023	OpenAI Gymreinforcement-learning	—Unverified	0
Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias	Oct 12, 2023	D4RLOffline RL	CodeCode Available	1
Neural architecture impact on identifying temporally extended Reinforcement Learning tasks	Oct 4, 2023	Deep Reinforcement Learningimage-classification	—Unverified	0
Optimizing with Low Budgets: a Comparison on the Black-box Optimization Benchmarking Suite and OpenAI Gym	Sep 29, 2023	Bayesian OptimizationBenchmarking	—Unverified	0
Implicit Sensing in Traffic Optimization: Advanced Deep Reinforcement Learning Techniques	Sep 25, 2023	Autonomous VehiclesDeep Reinforcement Learning	—Unverified	0
gym-saturation: Gymnasium environments for saturation provers (System description)	Sep 16, 2023	OpenAI Gymreinforcement-learning	—Unverified	0
Attention Loss Adjusted Prioritized Experience Replay	Sep 13, 2023	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified	0
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning	Aug 28, 2023	D4RLOff-policy evaluation	—Unverified	0
Distributionally Robust Statistical Verification with Imprecise Neural Networks	Aug 28, 2023	Active LearningMuJoCo	—Unverified	0
qgym: A Gym for Training and Benchmarking RL-Based Quantum Compilation	Aug 1, 2023	BenchmarkingOpenAI Gym	CodeCode Available	1
On Combining Expert Demonstrations in Imitation Learning via Optimal Transport	Jul 20, 2023	Imitation LearningOpenAI Gym	—Unverified	0
Scaling Distributed Multi-task Reinforcement Learning with Experience Sharing	Jul 11, 2023	Lifelong learningOpenAI Gym	—Unverified	0
Dynamic Observation Policies in Observation Cost-Sensitive Reinforcement Learning	Jul 5, 2023	OpenAI Gymreinforcement-learning	CodeCode Available	0
Learning Environment Models with Continuous Stochastic Dynamics	Jun 29, 2023	AcrobotBenchmarking	—Unverified	0
Correcting discount-factor mismatch in on-policy policy gradient methods	Jun 23, 2023	OpenAI GymPolicy Gradient Methods	—Unverified	0
Comparing the Efficacy of Fine-Tuning and Meta-Learning for Few-Shot Policy Imitation	Jun 23, 2023	Few-Shot Image ClassificationFew-Shot Imitation Learning	CodeCode Available	0
Deep Reinforcement Learning for ESG financial portfolio management	Jun 19, 2023	Decision MakingDeep Reinforcement Learning	—Unverified	0
Mimicking Better by Matching the Approximate Action Distribution	Jun 16, 2023	Imitation LearningMuJoCo	CodeCode Available	0
Active Inference in Hebbian Learning Networks	Jun 8, 2023	OpenAI GymQ-Learning	—Unverified	0
Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving	Jun 5, 2023	Autonomous DrivingMotion Planning	CodeCode Available	0
For SALE: State-Action Representation Learning for Deep Reinforcement Learning	Jun 4, 2023	continuous-controlContinuous Control	CodeCode Available	1
Optimizing Attention and Cognitive Control Costs Using Temporally-Layered Architectures	May 30, 2023	continuous-controlContinuous Control	CodeCode Available	0
Discovering Individual Rewards in Collective Behavior through Inverse Multi-Agent Reinforcement Learning	May 17, 2023	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified	0
Rethinking Population-assisted Off-policy Reinforcement Learning	May 4, 2023	OpenAI Gymreinforcement-learning	—Unverified	0
Gym-preCICE: Reinforcement Learning Environments for Active Flow Control	May 3, 2023	OpenAI Gymreinforcement-learning	—Unverified	0
Signal Novelty Detection as an Intrinsic Reward for Robotics	Apr 14, 2023	AcrobotAnomaly Detection	CodeCode Available	0
Exact and Cost-Effective Automated Transformation of Neural Network Controllers to Decision Tree Controllers	Apr 11, 2023	Decision MakingOpenAI Gym	—Unverified	0
Causal Repair of Learning-enabled Cyber-physical Systems	Apr 6, 2023	counterfactualDiagnostic	—Unverified	0
Generative Adversarial Neuroevolution for Control Behaviour Imitation	Apr 3, 2023	Imitation LearningOpenAI Gym	CodeCode Available	0
Neuroevolution of Recurrent Architectures on Control Tasks	Apr 3, 2023	Evolutionary AlgorithmsOpenAI Gym	CodeCode Available	0
Soft-Bellman Equilibrium in Affine Markov Games: Forward Solutions and Inverse Learning	Mar 31, 2023	OpenAI Gym	CodeCode Available	0
Graph Decision Transformer	Mar 7, 2023	Offline RLOpenAI Gym	—Unverified	0
A Strategy-Oriented Bayesian Soft Actor-Critic Model	Mar 7, 2023	continuous-controlContinuous Control	—Unverified	0
Local Environment Poisoning Attacks on Federated Reinforcement Learning	Mar 5, 2023	Federated LearningOpenAI Gym	—Unverified	0
Double A3C: Deep Reinforcement Learning on OpenAI Gym Games	Mar 4, 2023	Atari GamesDeep Reinforcement Learning	—Unverified	0
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints	Feb 2, 2023	OpenAI GymReinforcement Learning (RL)	—Unverified	0
EvoX: A Distributed GPU-accelerated Framework for Scalable Evolutionary Computation	Jan 29, 2023	GPUNavigate	CodeCode Available	4
Neural Episodic Control with State Abstraction	Jan 27, 2023	Deep Reinforcement LearningMuJoCo	—Unverified	0
PushWorld: A benchmark for manipulation planning with tools and movable obstacles	Jan 24, 2023	OpenAI GymStarcraft	CodeCode Available	1
Asynchronous Deep Double Duelling Q-Learning for Trading-Signal Execution in Limit Order Book Markets	Jan 20, 2023	Deep Reinforcement LearningManagement	—Unverified	0
Off-Policy Reinforcement Learning with Loss Function Weighted by Temporal Difference Error	Dec 26, 2022	Deep Reinforcement LearningOpenAI Gym	—Unverified	0
Enhancing Cyber Resilience of Networked Microgrids using Vertical Federated Reinforcement Learning	Dec 17, 2022	OpenAI Gymreinforcement-learning	—Unverified	0
Robust Policy Optimization in Deep Reinforcement Learning	Dec 14, 2022	continuous-controlContinuous Control	CodeCode Available	0
CT-DQN: Control-Tutored Deep Reinforcement Learning	Dec 2, 2022	Car RacingDeep Reinforcement Learning	—Unverified	0
MO-Gym: A Library of Multi-Objective Reinforcement Learning Environments	Nov 30, 2022	Multi-Objective Reinforcement LearningOpenAI Gym	CodeCode Available	2

Show:10 25 50

← PrevPage 2 of 8Next →

All datasets Ant-v4 HalfCheetah-v4 Hopper-v4 Humanoid-v4 Walker2d-v4 Ant-v2 CartPole-v1 HalfCheetah-v2 Hopper-v2 LunarLander-v2 Mountain Car Pendulum-v1

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,586.33	—	Unverified
2	TD3	Average Return	5,942.55	—	Unverified
3	SAC	Average Return	5,208.09	—	Unverified
4	DDPG	Average Return	1,712.12	—	Unverified
5	PPO	Average Return	608.97	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	15,836.04	—	Unverified
2	DDPG	Average Return	14,934.86	—	Unverified
3	TD3	Average Return	12,026.73	—	Unverified
4	MEow	Average Return	10,981.47	—	Unverified
5	PPO	Average Return	6,006.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	3,332.99	—	Unverified
2	TD3	Average Return	3,319.98	—	Unverified
3	SAC	Average Return	2,882.56	—	Unverified
4	DDPG	Average Return	1,290.24	—	Unverified
5	PPO	Average Return	790.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MEow	Average Return	6,923.22	—	Unverified
2	SAC	Average Return	6,211.5	—	Unverified
3	PPO	Average Return	925.89	—	Unverified
4	TD3	Average Return	198.44	—	Unverified
5	DDPG	Average Return	139.14	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SAC	Average Return	5,745.27	—	Unverified
2	MEow	Average Return	5,526.66	—	Unverified
3	DDPG	Average Return	2,994.54	—	Unverified
4	PPO	Average Return	2,739.81	—	Unverified
5	TD3	Average Return	2,612.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	5,163.54	—	Unverified
2	AWR	Mean Reward	5,067	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	500	—	Unverified
2	Oblique decision tree	Average Return	500	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,571.99	—	Unverified
2	AWR	Mean Reward	9,136	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	3,458.22	—	Unverified
2	AWR	Mean Reward	3,405	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Oblique decision tree	Average Return	272.14	—	Unverified
2	AWR	Average Return	229	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Orthogonal decision tree	Average Return	-101.72	—	Unverified
2	Oblique decision tree	Average Return	-106.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA with Hierarchical Reward Functions	Mean Reward	-125.02	—	Unverified
2	TLA	Mean Reward	-154.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Mean Reward	5,813	—	Unverified
2	TLA	Mean Reward	3,878.41	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AWR	Average Return	4,996	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	9,356.67	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	1,000	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TLA	Mean Reward	93.88	—	Unverified