Policy Gradient Methods

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–225 of 382 papers

Title	Date	Tasks	Status
Predicting Multiple Actions for Stochastic Continuous Control	Jan 1, 2018	continuous-controlContinuous Control	—Unverified
On the Second-Order Convergence of Biased Policy Gradient Algorithms	Nov 5, 2023	Policy Gradient Methods	—Unverified
Privacy Preserving Multi-Agent Reinforcement Learning in Supply Chains	Dec 9, 2023	Multi-agent Reinforcement LearningPolicy Gradient Methods	—Unverified
Programmatic Reinforcement Learning without Oracles	Sep 29, 2021	Bilevel OptimizationDeep Reinforcement Learning	—Unverified
Provable Policy Gradient Methods for Average-Reward Markov Potential Games	Mar 9, 2024	Policy Gradient Methods	—Unverified
Provably Convergent Policy Optimization via Metric-aware Trust Region Methods	Jun 25, 2023	continuous-controlContinuous Control	—Unverified
Provably Efficient Policy Optimization for Two-Player Zero-Sum Markov Games	Feb 17, 2021	Policy Gradient MethodsVocal Bursts Valence Prediction	—Unverified
Proximal Policy Optimization for Tracking Control Exploiting Future Reference Information	Jul 20, 2021	Policy Gradient Methodsreinforcement-learning	—Unverified
Proximal Policy Optimization with Continuous Bounded Action Space via the Beta Distribution	Nov 3, 2021	continuous-controlContinuous Control	—Unverified
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning	Nov 7, 2024	Offline RLPolicy Gradient Methods	—Unverified
ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy	Mar 21, 2024	Policy Gradient Methods	—Unverified
Reinforcement Learning: An Overview	Dec 6, 2024	Decision MakingDeep Reinforcement Learning	—Unverified
Reinforcement Learning based Sequential Batch-sampling for Bayesian Optimal Experimental Design	Dec 21, 2021	Deep Reinforcement LearningExperimental Design	—Unverified
Reinforcement Learning in Linear Quadratic Deep Structured Teams: Global Convergence of Policy Gradient Methods	Nov 29, 2020	Policy Gradient Methods	—Unverified
Residual Policy Gradient: A Reward View of KL-regularized Objective	Mar 14, 2025	Imitation LearningMuJoCo	—Unverified
Rethinking Deep Policy Gradients via State-Wise Policy Improvement	Oct 19, 2020	Policy Gradient MethodsValue prediction	—Unverified
Reusing Historical Trajectories in Natural Policy Gradient via Importance Sampling: Convergence and Convergence Rate	Mar 1, 2024	Policy Gradient Methods	—Unverified
Reward-estimation variance elimination in sequential decision processes	Nov 15, 2018	Policy Gradient MethodsReinforcement Learning	—Unverified
Riemannian stochastic optimization methods avoid strict saddle points	Nov 4, 2023	Dictionary LearningPolicy Gradient Methods	—Unverified
Risk-Sensitive Reinforcement Learning via Policy Gradient Search	Oct 22, 2018	Policy Gradient Methodsreinforcement-learning	—Unverified
RL Dreams: Policy Gradient Optimization for Score Distillation based 3D Generation	Dec 8, 2023	3D GenerationDenoising	—Unverified
ROCM: RLHF on consistency models	Mar 8, 2025	Policy Gradient Methods	—Unverified
Safe Reinforcement Learning via Projection on a Safe Set: How to Achieve Optimality?	Apr 2, 2020	Policy Gradient MethodsQ-Learning	—Unverified
Sample Complexity of Neural Policy Mirror Descent for Policy Optimization on Low-Dimensional Manifolds	Sep 25, 2023	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Sample Complexity of Policy Gradient Finding Second-Order Stationary Points	Dec 2, 2020	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 9 of 16Next →

No leaderboard results yet.