Policy Gradient Methods

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 382 papers

Title	Date	Tasks	Status
Residual Policy Gradient: A Reward View of KL-regularized Objective	Mar 14, 2025	Imitation LearningMuJoCo	—Unverified
ROCM: RLHF on consistency models	Mar 8, 2025	Policy Gradient Methods	—Unverified
Convergence Guarantees of Model-free Policy Gradient Methods for LQR with Stochastic Data	Feb 27, 2025	Policy Gradient Methods	CodeCode Available
SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin	Feb 19, 2025	GPULogical Reasoning	—Unverified
A Self-Supervised Reinforcement Learning Approach for Fine-Tuning Large Language Models Using Cross-Attention Signals	Feb 14, 2025	Policy Gradient Methods	—Unverified
Metastable Dynamics of Chain-of-Thought Reasoning: Provable Benefits of Search, RL and Distillation	Feb 2, 2025	Policy Gradient Methods	—Unverified
Computing and Learning Stationary Mean Field Equilibria with Scalar Interactions: Algorithms and Applications	Feb 2, 2025	counterfactualPolicy Gradient Methods	—Unverified
Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning	Jan 8, 2025	Policy Gradient MethodsReinforcement Learning (RL)	CodeCode Available
Self-Interested Agents in Collaborative Learning: An Incentivized Adaptive Data-Centric Framework	Dec 9, 2024	Bilevel OptimizationPolicy Gradient Methods	—Unverified
Reinforcement Learning: An Overview	Dec 6, 2024	Decision MakingDeep Reinforcement Learning	CodeCode Available
BOTS: Batch Bayesian Optimization of Extended Thompson Sampling for Severely Episode-Limited RL Settings	Nov 30, 2024	Bayesian OptimizationPolicy Gradient Methods	—Unverified
Solving Rubik's Cube Without Tricky Sampling	Nov 29, 2024	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning	Nov 7, 2024	Offline RLPolicy Gradient Methods	—Unverified
Policy Gradient for Robust Markov Decision Processes	Oct 29, 2024	Policy Gradient Methods	CodeCode Available
Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach	Oct 17, 2024	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Learning in complex action spaces without policy gradients	Oct 8, 2024	Policy Gradient MethodsQ-Learning	—Unverified
Strongly-polynomial time and validation analysis of policy gradient methods	Sep 28, 2024	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Landscape of Policy Optimization for Finite Horizon MDPs with General State and Action	Sep 25, 2024	Policy Gradient Methods	—Unverified
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form	Aug 29, 2024	FormPolicy Gradient Methods	CodeCode Available
Reinforcement Learning for Causal Discovery without Acyclicity Constraints	Aug 24, 2024	Causal DiscoveryEfficient Exploration	—Unverified
Deterministic Policy Gradient Primal-Dual Methods for Continuous-Space Constrained MDPs	Aug 19, 2024	continuous-controlContinuous Control	—Unverified
From Imitation to Refinement -- Residual RL for Precise Assembly	Jul 23, 2024	ChunkingPolicy Gradient Methods	—Unverified
PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods	Jul 18, 2024	Atari GamesDecision Making	—Unverified
Towards Adapting Reinforcement Learning Agents to New Tasks: Insights from Q-Values	Jul 14, 2024	Policy Gradient Methodsreinforcement-learning	—Unverified
Augmented Bayesian Policy Search	Jul 5, 2024	Bayesian OptimizationLEMMA	—Unverified
Improving Reward-Conditioned Policies for Multi-Armed Bandits using Normalized Weight Functions	Jun 16, 2024	Multi-Armed BanditsPolicy Gradient Methods	—Unverified
Current applications and potential future directions of reinforcement learning-based Digital Twins in agriculture	Jun 13, 2024	Decision MakingManagement	—Unverified
Optimal Rates of Convergence for Entropy Regularization in Discounted Markov Decision Processes	Jun 6, 2024	Policy Gradient Methods	—Unverified
Entropy annealing for policy mirror descent in continuous time and space	May 30, 2024	Policy Gradient Methods	—Unverified
Mollification Effects of Policy Gradient Methods	May 28, 2024	continuous-controlContinuous Control	—Unverified
Matrix Low-Rank Approximation For Policy Gradient Methods	May 27, 2024	Matrix CompletionPolicy Gradient Methods	CodeCode Available
Linear Function Approximation as a Computationally Efficient Method to Solve Classical Reinforcement Learning Challenges	May 27, 2024	AcrobotPolicy Gradient Methods	—Unverified
Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence	May 23, 2024	Distributional Reinforcement LearningPolicy Gradient Methods	—Unverified
Almost sure convergence rates of stochastic gradient methods under gradient domination	May 22, 2024	Policy Gradient Methodsreinforcement-learning	—Unverified
An Initial Introduction to Cooperative Multi-Agent Reinforcement Learning	May 10, 2024	MisconceptionsMulti-agent Reinforcement Learning	—Unverified
Federated Reinforcement Learning with Constraint Heterogeneity	May 6, 2024	Language ModelingLanguage Modelling	—Unverified
Off-OAB: Off-Policy Policy Gradient Method with Optimal Action-Dependent Baseline	May 4, 2024	Computational EfficiencyMuJoCo	—Unverified
Information-Theoretic Opacity-Enforcement in Markov Decision Processes	Apr 30, 2024	Policy Gradient Methods	—Unverified
Control randomisation approach for policy gradient and application to reinforcement learning in optimal switching	Apr 27, 2024	Policy Gradient Methods	—Unverified
Actor-Critic Reinforcement Learning with Phased Actor	Apr 18, 2024	Policy Gradient Methodsreinforcement-learning	—Unverified
Intervention-Assisted Policy Gradient Methods for Online Stochastic Queuing Network Optimization: Technical Report	Apr 5, 2024	Deep Reinforcement LearningPolicy Gradient Methods	—Unverified
Elementary Analysis of Policy Gradient Methods	Apr 4, 2024	Policy Gradient Methods	—Unverified
ReAct Meets ActRe: When Language Agents Enjoy Training Data Autonomy	Mar 21, 2024	Policy Gradient Methods	—Unverified
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles	Mar 18, 2024	Policy Gradient Methods	—Unverified
Global Convergence Guarantees for Federated Policy Gradient Methods with Adversaries	Mar 15, 2024	Decision MakingPolicy Gradient Methods	—Unverified
Towards Efficient Risk-Sensitive Policy Gradient: An Iteration Complexity Analysis	Mar 13, 2024	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified
Provable Policy Gradient Methods for Average-Reward Markov Potential Games	Mar 9, 2024	Policy Gradient Methods	—Unverified
Fill-and-Spill: Deep Reinforcement Learning Policy Gradient Methods for Reservoir Operation Decision and Control	Mar 7, 2024	Deep Reinforcement LearningPolicy Gradient Methods	—Unverified
Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process	Mar 7, 2024	Drug DesignPolicy Gradient Methods	—Unverified
Towards Provable Log Density Policy Gradient	Mar 3, 2024	Policy Gradient Methodsreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 2 of 8Next →

No leaderboard results yet.