Policy Gradient Methods

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 382 papers

Title	Date	Tasks	Status
Global Convergence of Policy Gradient Methods to (Almost) Locally Optimal Policies	Jun 19, 2019	Autonomous DrivingPolicy Gradient Methods	—Unverified
Global Convergence of Policy Gradient Methods in Reinforcement Learning, Games and Control	Oct 8, 2023	Decision MakingPolicy Gradient Methods	—Unverified
Global Convergence Using Policy Gradient Methods for Model-free Markovian Jump Linear Quadratic Control	Nov 30, 2021	Policy Gradient Methods	—Unverified
Global Optimality Guarantees For Policy Gradient Methods	Jun 5, 2019	Policy Gradient MethodsReinforcement Learning	—Unverified
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles	Mar 18, 2024	Policy Gradient Methods	—Unverified
Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences	Jul 17, 2021	Policy Gradient Methods	—Unverified
Guided Adaptive Credit Assignment for Sample Efficient Policy Optimization	Sep 25, 2019	Instruction FollowingPolicy Gradient Methods	—Unverified
Homotopic Policy Mirror Descent: Policy Convergence, Implicit Regularization, and Improved Sample Complexity	Jan 24, 2022	Policy Gradient Methods	—Unverified
How are policy gradient methods affected by the limits of control?	Jun 14, 2022	Policy Gradient Methods	—Unverified
Identifying Policy Gradient Subspaces	Jan 12, 2024	continuous-controlContinuous Control	—Unverified
Image Captioning based on Deep Reinforcement Learning	Sep 13, 2018	Deep Reinforcement LearningImage Captioning	—Unverified
Improvements on Hindsight Learning	Sep 16, 2018	Policy Gradient Methodsreinforcement-learning	—Unverified
Improving a sequence-to-sequence nlp model using a reinforcement learning policy algorithm	Dec 28, 2022	ChatbotDeep Reinforcement Learning	—Unverified
Improving DAPO from a Mixed-Policy Perspective	Jul 17, 2025	Policy Gradient Methods	—Unverified
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified
Improving Sample Efficiency and Multi-Agent Communication in RL-based Train Rescheduling	Apr 28, 2020	Policy Gradient Methodsreinforcement-learning	—Unverified
Incremental Policy Gradients for Online Reinforcement Learning Control	Jan 1, 2021	Policy Gradient Methodsreinforcement-learning	—Unverified
Independent Natural Policy Gradient Methods for Potential Games: Finite-time Global Convergence with Entropy Regularization	Apr 12, 2022	Autonomous VehiclesPolicy Gradient Methods	—Unverified
Independent Policy Gradient for Large-Scale Markov Potential Games: Sharper Rates, Function Approximation, and Game-Agnostic Convergence	Feb 8, 2022	Multi-agent Reinforcement LearningPolicy Gradient Methods	—Unverified
Independent Policy Gradient Methods for Competitive Reinforcement Learning	Jan 11, 2021	Policy Gradient Methodsreinforcement-learning	—Unverified
Information Maximizing Exploration with a Latent Dynamics Model	Apr 4, 2018	continuous-controlContinuous Control	—Unverified
Information-Theoretic Opacity-Enforcement in Markov Decision Processes	Apr 30, 2024	Policy Gradient Methods	—Unverified
Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report	Apr 5, 2024	Deep Reinforcement LearningPolicy Gradient Methods	—Unverified
Is the Policy Gradient a Gradient?	Jun 17, 2019	Open-Ended Question AnsweringPolicy Gradient Methods	—Unverified
KIPPO: Koopman-Inspired Proximal Policy Optimization	May 20, 2025	Computational Efficiencycontinuous-control	—Unverified
Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action	Sep 25, 2024	Policy Gradient Methods	—Unverified
Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior	Jul 12, 2023	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Learning Dynamics and Generalization in Reinforcement Learning	Jun 5, 2022	Policy Gradient Methodsreinforcement-learning	—Unverified
Learning from Algorithm Feedback: One-Shot SAT Solver Guidance with GNNs	May 21, 2025	Combinatorial OptimizationPolicy Gradient Methods	—Unverified
Learning in complex action spaces without policy gradients	Oct 8, 2024	Policy Gradient MethodsQ-Learning	—Unverified
Learning Novel Policies For Tasks	May 13, 2019	Policy Gradient MethodsReinforcement Learning	—Unverified
Learning Self-Imitating Diverse Policies	May 25, 2018	continuous-controlContinuous Control	—Unverified
Learning to Interrupt: A Hierarchical Deep Reinforcement Learning Framework for Efficient Exploration	Jul 30, 2018	Deep Reinforcement LearningEfficient Exploration	—Unverified
Lifelong Learning of Factored Policies via Policy Gradients	Jun 12, 2020	continuous-controlContinuous Control	—Unverified
Policy Gradient Methods for Distortion Risk Measures	Jul 9, 2021	Policy Gradient Methodsreinforcement-learning	—Unverified
Linear convergence of a policy gradient method for some finite horizon continuous time control problems	Mar 22, 2022	Policy Gradient Methodsreinforcement-learning	—Unverified
Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies	Oct 4, 2022	Policy Gradient Methods	—Unverified
Linear Function Approximation as a Computationally Efficient Method to Solve Classical Reinforcement Learning Challenges	May 27, 2024	AcrobotPolicy Gradient Methods	—Unverified
Linear-Quadratic Mean-Field Reinforcement Learning: Convergence of Policy Gradient Methods	Oct 9, 2019	Policy Gradient Methodsreinforcement-learning	—Unverified
Local Advantage Actor-Critic for Robust Multi-Agent Deep Reinforcement Learning	Oct 16, 2021	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Local Pairwise Distance Matching for Backpropagation-Free Reinforcement Learning	Jul 15, 2025	Policy Gradient Methodsreinforcement-learning	—Unverified
Manifold Regularization for Kernelized LSTD	Oct 15, 2017	Policy Gradient MethodsReinforcement Learning	—Unverified
Optimal Control-Based Baseline for Guided Exploration in Policy Gradient Methods	Nov 4, 2020	Deep Reinforcement LearningPolicy Gradient Methods	—Unverified
Learning to Constrain Policy Optimization with Virtual Trust Region	Apr 20, 2022	Atari GamesPolicy Gradient Methods	—Unverified
Meta Learning the Step Size in Policy Gradient Methods	May 20, 2021	Meta-LearningMeta Reinforcement Learning	—Unverified
Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation	Feb 2, 2025	Policy Gradient Methods	—Unverified
Modularity in Reinforcement Learning via Algorithmic Independence in Credit Assignment	Jun 28, 2021	Decision MakingPolicy Gradient Methods	—Unverified
Mollification Effects of Policy Gradient Methods	May 28, 2024	continuous-controlContinuous Control	—Unverified
Asynchronous, Option-Based Multi-Agent Policy Gradient: A Conditional Reasoning Approach	Mar 29, 2022	Hierarchical Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Multiagent Soft Q-Learning	Apr 25, 2018	Policy Gradient MethodsQ-Learning	—Unverified

Show:10 25 50

← PrevPage 5 of 8Next →

No leaderboard results yet.