SOTAVerified|Agents Browse Leaderboard About

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

2018-01-04ICML 2018Code Available1· sign in to hype

Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine

Code Available — Be the first to reproduce this paper.

Code

github.com/haarnoja/sac
OfficialIn papertf★ 0
github.com/DLR-RM/stable-baselines3
pytorch★ 12,962
github.com/facebookresearch/ReAgent
pytorch★ 3,690
github.com/toni-sm/skrl
jax★ 1,014
github.com/Rafael1s/Deep-Reinforcement-Learning-Udacity
pytorch★ 992
github.com/trackmania-rl/tmrl
pytorch★ 687
github.com/tensorlayer/RLzoo
tf★ 644
github.com/araffin/sbx
jax★ 572
github.com/Kaixhin/imitation-learning
pytorch★ 563
github.com/andrejorsula/drl_grasping
pytorch★ 506

Abstract

A platform for Applied Reinforcement Learning (Applied RL)

Tasks

Continuous Control Decision Making Deep Reinforcement Learning Omniverse Isaac Gym OpenAI Gym Q-Learning reinforcement-learning Reinforcement Learning Reinforcement Learning (RL)

Benchmark Results

Dataset	Model	Metric	Claimed	Verified	Status
Ant-v4	SAC	Average Return	5,208.09	—	Unverified
HalfCheetah-v4	SAC	Average Return	15,836.04	—	Unverified
Hopper-v4	SAC	Average Return	2,882.56	—	Unverified
Humanoid-v4	SAC	Average Return	6,211.5	—	Unverified
Walker2d-v4	SAC	Average Return	5,745.27	—	Unverified

Reproductions