Policy Gradient Methods

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 382 papers

Title	Date	Tasks	Status	Hype	Score
Direct Retrieval-augmented Optimization: Synergizing Knowledge Selection and Language Models	May 5, 2025	Policy Gradient MethodsRAG	CodeCode Available	3	5
Ekar: An Explainable Method for Knowledge Aware Recommendation	Jun 22, 2019	Knowledge-Aware RecommendationKnowledge Graphs	CodeCode Available	2	5
Proximal Policy Optimization Algorithms	Jul 20, 2017	Continuous ControlDota 2	CodeCode Available	2	5
Competitive Policy Optimization	Jun 18, 2020	Policy Gradient Methods	CodeCode Available	1	5
Divergence-Augmented Policy Optimization	Jan 25, 2025	Atari GamesDeep Reinforcement Learning	CodeCode Available	1	5
Deep Policy Gradient Methods Without Batch Updates, Target Networks, or Replay Buffers	Nov 22, 2024	AvgDeep Reinforcement Learning	CodeCode Available	1	5
Trust Region Policy Optimization	Feb 19, 2015	Atari GamesPolicy Gradient Methods	CodeCode Available	1	5
Partial advantage estimator for proximal policy optimization	Jan 26, 2023	MuJoCoPolicy Gradient Methods	CodeCode Available	1	5
Self-Improvement for Neural Combinatorial Optimization: Sample without Replacement, but Improvement	Mar 22, 2024	Combinatorial OptimizationImitation Learning	CodeCode Available	1	5
Transform2Act: Learning a Transform-and-Control Policy for Efficient Agent Design	Oct 7, 2021	Decision MakingPolicy Gradient Methods	CodeCode Available	1	5
Efficient Wasserstein Natural Gradients for Reinforcement Learning	Oct 12, 2020	Policy Gradient Methodsreinforcement-learning	CodeCode Available	1	5
Distributional Policy Optimization: An Alternative Approach for Continuous Control	May 23, 2019	continuous-controlContinuous Control	CodeCode Available	1	5
Invariant Policy Optimization: Towards Stronger Generalization in Reinforcement Learning	Jun 1, 2020	Policy Gradient Methodsreinforcement-learning	CodeCode Available	1	5
Deep Bayesian Quadrature Policy Optimization	Jun 28, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Neural Inventory Control in Networks via Hindsight Differentiable Policy Optimization	Jun 20, 2023	Deep Reinforcement LearningManagement	CodeCode Available	1	5
Bayesian Action Decoder for Deep Multi-Agent Reinforcement Learning	Nov 4, 2018	DecoderMulti-agent Reinforcement Learning	CodeCode Available	1	5
Continuous MDP Homomorphisms and Homomorphic Policy Gradient	Sep 15, 2022	continuous-controlContinuous Control	CodeCode Available	1	5
Policy Gradient Methods in the Presence of Symmetries and State Abstractions	May 9, 2023	continuous-controlContinuous Control	CodeCode Available	1	5
Reevaluating Policy Gradient Methods for Imperfect-Information Games	Feb 13, 2025	counterfactualDeep Reinforcement Learning	CodeCode Available	1	5
Self-critical Sequence Training for Image Captioning	Dec 2, 2016	Image CaptioningPolicy Gradient Methods	CodeCode Available	1	5
The Sufficiency of Off-Policyness and Soft Clipping: PPO is still Insufficient according to an Off-Policy Measure	May 20, 2022	Efficient ExplorationPolicy Gradient Methods	CodeCode Available	1	5
StepTool: A Step-grained Reinforcement Learning Framework for Tool Learning in LLMs	Oct 10, 2024	Information RetrievalPolicy Gradient Methods	CodeCode Available	1	5
Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization	Oct 3, 2022	Decision MakingPolicy Gradient Methods	CodeCode Available	1	5
Episodic Policy Gradient Training	Dec 3, 2021	Policy Gradient MethodsScheduling	CodeCode Available	1	5
Experimental design for MRI by greedy policy search	Oct 30, 2020	Experimental DesignPolicy Gradient Methods	CodeCode Available	1	5
Efficient Diffusion Policies for Offline Reinforcement Learning	May 31, 2023	D4RLOffline RL	CodeCode Available	1	5
An Attentive Graph Agent for Topology-Adaptive Cyber Defence	Jan 24, 2025	Graph AttentionGraph Neural Network	CodeCode Available	1	5
An Efficient Asynchronous Method for Integrating Evolutionary and Gradient-based Policy Search	Dec 10, 2020	continuous-controlContinuous Control	CodeCode Available	1	5
Learning Opinion Summarizers by Selecting Informative Reviews	Sep 9, 2021	Few-Shot LearningOpinion Summarization	CodeCode Available	1	5
Online Portfolio Management via Deep Reinforcement Learning with High-Frequency Data	May 1, 2023	Deep Reinforcement LearningManagement	CodeCode Available	1	5
Reactive Exploration to Cope with Non-Stationarity in Lifelong Reinforcement Learning	Jul 12, 2022	Lifelong learningPolicy Gradient Methods	CodeCode Available	1	5
Learning Multi-Agent Communication through Structured Attentive Reasoning	Dec 1, 2020	Decision MakingDeep Reinforcement Learning	CodeCode Available	1	5
Lifelong Policy Gradient Learning of Factored Policies for Faster Training Without Forgetting	Jul 14, 2020	Lifelong learningPolicy Gradient Methods	CodeCode Available	1	5
Model-free Policy Learning with Reward Gradients	Mar 9, 2021	Continuous Controlmodel	CodeCode Available	1	5
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods	Feb 3, 2025	Language ModelingLanguage Modelling	CodeCode Available	1	5
Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment	Jul 26, 2021	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	0	5
Hindsight Trust Region Policy Optimization	Jul 29, 2019	Atari GamesPolicy Gradient Methods	CodeCode Available	0	5
Improving Exploration in Evolution Strategies for Deep Reinforcement Learning via a Population of Novelty-Seeking Agents	Dec 18, 2017	Deep Reinforcement LearningPolicy Gradient Methods	CodeCode Available	0	5
Action-depedent Control Variates for Policy Optimization via Stein's Identity	Oct 30, 2017	Policy Gradient Methodsreinforcement-learning	CodeCode Available	0	5
High-Dimensional Continuous Control Using Generalized Advantage Estimation	Jun 8, 2015	continuous-controlContinuous Control	CodeCode Available	0	5
Hierarchical Policy-Gradient Reinforcement Learning for Multi-Agent Shepherding Control of Non-Cohesive Targets	Apr 3, 2025	Policy Gradient Methodsreinforcement-learning	CodeCode Available	0	5
Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning	Jul 21, 2023	Decision MakingDeep Reinforcement Learning	CodeCode Available	0	5
Global Optimality and Finite Sample Analysis of Softmax Off-Policy Actor Critic under State Distribution Mismatch	Nov 4, 2021	Policy Gradient Methods	CodeCode Available	0	5
Understanding the Effects of Second-Order Approximations in Natural Policy Gradient Reinforcement Learning	Jan 22, 2022	Policy Gradient Methodsreinforcement-learning	CodeCode Available	0	5
Enabling Efficient, Reliable Real-World Reinforcement Learning with Approximate Physics-Based Models	Jul 16, 2023	Policy Gradient Methods	CodeCode Available	0	5
Health-Informed Policy Gradients for Multi-Agent Reinforcement Learning	Aug 2, 2019	Multi-agent Reinforcement LearningPolicy Gradient Methods	CodeCode Available	0	5
Hindsight policy gradients	Nov 16, 2017	Policy Gradient Methodsreinforcement-learning	CodeCode Available	0	5
Fast Efficient Hyperparameter Tuning for Policy Gradient Methods	Dec 1, 2019	Policy Gradient Methods	CodeCode Available	0	5
Evaluating Rewards for Question Generation Models	Feb 28, 2019	Machine TranslationPolicy Gradient Methods	CodeCode Available	0	5
Dual Learning for Machine Translation	Nov 1, 2016	Language ModelingLanguage Modelling	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 8Next →

No leaderboard results yet.