Policy Gradient Methods

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 382 papers

Title	Date	Tasks	Status	Score
Bayesian Policy Gradients via Alpha Divergence Dropout Inference	Dec 6, 2017	continuous-controlContinuous Control	CodeCode Available	5
Remember and Forget for Experience Replay	Jul 16, 2018	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Shapley Q-value: A Local Reward Approach to Solve Global Reward Games	Jul 11, 2019	Multi-agent Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Rethinking Action Spaces for Reinforcement Learning in End-to-end Dialog Agents with Latent Variable Models	Feb 23, 2019	Decision MakingDialogue Generation	CodeCode Available	5
Trajectory-Based Off-Policy Deep Reinforcement Learning	May 14, 2019	continuous-controlContinuous Control	CodeCode Available	5
Oracle Complexity Reduction for Model-free LQR: A Stochastic Variance-Reduced Policy Gradient Approach	Sep 19, 2023	Policy Gradient Methods	CodeCode Available	5
Divide-and-Conquer Reinforcement Learning	Nov 27, 2017	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
On-Policy Trust Region Policy Optimisation with Replay Buffers	Jan 18, 2019	Continuous ControlDeep Reinforcement Learning	CodeCode Available	5
Clipped Action Policy Gradient	Feb 21, 2018	continuous-controlContinuous Control	CodeCode Available	5
Clipped-Objective Policy Gradients for Pessimistic Policy Optimization	Nov 10, 2023	Deep Reinforcement LearningMulti-Task Learning	CodeCode Available	5
Cold-Start Reinforcement Learning with Softmax Policy Gradient	Sep 27, 2017	Image CaptioningPolicy Gradient Methods	CodeCode Available	5
The Mirage of Action-Dependent Baselines in Reinforcement Learning	Feb 27, 2018	Policy Gradient Methodsreinforcement-learning	CodeCode Available	5
On Learning Intrinsic Rewards for Policy Gradient Methods	Apr 17, 2018	Atari GamesDecision Making	CodeCode Available	5
Distributional constrained reinforcement learning for supply chain optimization	Feb 3, 2023	Distributional Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Greedy Actor-Critic: A New Conditional Cross-Entropy Method for Policy Improvement	Oct 22, 2018	Policy Gradient MethodsQ-Learning	CodeCode Available	5
PC-PG: Policy Cover Directed Exploration for Provable Policy Gradient Learning	Jul 16, 2020	Policy Gradient MethodsQ-Learning	CodeCode Available	5
Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning	Jan 8, 2025	Policy Gradient MethodsReinforcement Learning (RL)	CodeCode Available	5
Deep Reinforcement Learning for Dialogue Generation	Jun 5, 2016	ChatbotDeep Reinforcement Learning	CodeCode Available	5
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form	Aug 29, 2024	FormPolicy Gradient Methods	CodeCode Available	5
MDPGT: Momentum-based Decentralized Policy Gradient Tracking	Dec 6, 2021	Multi-agent Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
A general class of surrogate functions for stable and efficient reinforcement learning	Aug 12, 2021	MuJoCoPolicy Gradient Methods	CodeCode Available	5
Model-free and Bayesian Ensembling Model-based Deep Reinforcement Learning for Particle Accelerator Control Demonstrated on the FERMI FEL	Dec 17, 2020	Deep Reinforcement Learningmodel	CodeCode Available	5
Policy-Aware Model Learning for Policy Gradient Methods	Feb 28, 2020	modelModel-based Reinforcement Learning	CodeCode Available	5
Learning Goal-Oriented Visual Dialog via Tempered Policy Gradient	Jul 2, 2018	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Jointly Learning Environments and Control Policies with Projected Stochastic Gradient Ascent	Jun 2, 2020	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Hindsight Trust Region Policy Optimization	Jul 29, 2019	Atari GamesPolicy Gradient Methods	CodeCode Available	5
Hindsight policy gradients	Nov 16, 2017	Policy Gradient Methodsreinforcement-learning	CodeCode Available	5
Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment	Jul 26, 2021	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
High-Dimensional Continuous Control Using Generalized Advantage Estimation	Jun 8, 2015	continuous-controlContinuous Control	CodeCode Available	5
Convergence Guarantees of Model-free Policy Gradient Methods for LQR with Stochastic Data	Feb 27, 2025	Policy Gradient Methods	CodeCode Available	5
Deep Reinforcement Learning Algorithm for Dynamic Pricing of Express Lanes with Multiple Access Locations	Sep 10, 2019	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Matrix Low-Rank Approximation For Policy Gradient Methods	May 27, 2024	Matrix CompletionPolicy Gradient Methods	CodeCode Available	5
Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning	Jul 21, 2023	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
Neural Replicator Dynamics	Jun 1, 2019	counterfactualDeep Reinforcement Learning	CodeCode Available	5
Momentum-Based Policy Gradient Methods	Jul 13, 2020	Policy Gradient Methods	CodeCode Available	5
Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents	Dec 18, 2017	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Learning Zero-Sum Linear Quadratic Games with Improved Sample Complexity and Last-Iterate Convergence	Sep 8, 2023	Multi-agent Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Enabling Efficient, Reliable Real-World Reinforcement Learning with Approximate Physics-Based Models	Jul 16, 2023	Policy Gradient Methods	CodeCode Available	5
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch	Nov 4, 2021	Policy Gradient Methods	CodeCode Available	5
Neural Logic Reinforcement Learning	Apr 24, 2019	Deep Reinforcement LearningInductive logic programming	CodeCode Available	5
Fast Efficient Hyperparameter Tuning for Policy Gradients	Feb 18, 2019	Meta-LearningPolicy Gradient Methods	CodeCode Available	5
Dual Learning for Machine Translation	Nov 1, 2016	Language ModelingLanguage Modelling	CodeCode Available	5
Policy Gradient in Robust MDPs with Global Convergence Guarantee	Dec 20, 2022	Policy Gradient Methods	CodeCode Available	5
Fast Efficient Hyperparameter Tuning for Policy Gradient Methods	Dec 1, 2019	Policy Gradient Methods	CodeCode Available	5
Health-Informed Policy Gradients for Multi-Agent Reinforcement Learning	Aug 2, 2019	Multi-agent Reinforcement LearningPolicy Gradient Methods	CodeCode Available	5
Accelerated Policy Gradient: On the Convergence Rates of the Nesterov Momentum for Reinforcement Learning	Oct 18, 2023	Policy Gradient Methodsreinforcement-learning	CodeCode Available	5
Evaluating Rewards for Question Generation Models	Feb 28, 2019	Machine TranslationPolicy Gradient Methods	CodeCode Available	5
A Nonparametric Off-Policy Policy Gradient	Jan 8, 2020	Density EstimationPolicy Gradient Methods	CodeCode Available	5
Hierarchical Policy-Gradient Reinforcement Learning for Multi-Agent Shepherding Control of Non-Cohesive Targets	Apr 3, 2025	Policy Gradient Methodsreinforcement-learning	CodeCode Available	5
Leveraging class abstraction for commonsense reinforcement learning via residual policy gradient methods	Jan 28, 2022	Knowledge GraphsPolicy Gradient Methods	CodeCode Available	5

Show:10 25 50

← PrevPage 2 of 8Next →

No leaderboard results yet.