Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4976–5000 of 15113 papers

Title	Date	Tasks	Status
Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning	Jun 1, 2023	FairnessOffline RL	—Unverified
IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive Control	Jun 1, 2023	D4RLModel-based Reinforcement Learning	—Unverified
Replicability in Reinforcement Learning	May 31, 2023	reinforcement-learningReinforcement Learning	—Unverified
MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL	May 31, 2023	MuJoCoReinforcement Learning (RL)	—Unverified
Robust Reinforcement Learning Objectives for Sequential Recommender Systems	May 30, 2023	Offline RLRecommendation Systems	CodeCode Available
Policy Optimization for Continuous Reinforcement Learning	May 30, 2023	reinforcement-learningReinforcement Learning	—Unverified
RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion	May 29, 2023	Reinforcement Learning (RL)	—Unverified
Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse	May 29, 2023	continuous-controlContinuous Control	CodeCode Available
Towards a Better Understanding of Representation Dynamics under TD-learning	May 29, 2023	Reinforcement Learning (RL)Representation Learning	—Unverified
Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective	May 29, 2023	Knowledge DistillationReinforcement Learning (RL)	CodeCode Available
RLAD: Reinforcement Learning from Pixels for Autonomous Driving in Urban Environments	May 29, 2023	Autonomous Drivingreinforcement-learning	—Unverified
Potential-based Credit Assignment for Cooperative RL-based Testing of Autonomous Vehicles	May 28, 2023	Autonomous Vehiclescounterfactual	—Unverified
The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model	May 26, 2023	Reinforcement Learning (RL)	—Unverified
Reinforcement Learning with Simple Sequence Priors	May 26, 2023	continuous-controlContinuous Control	—Unverified
Policy Synthesis and Reinforcement Learning for Discounted LTL	May 26, 2023	PAC learningreinforcement-learning	—Unverified
Emergent Agentic Transformer from Chain of Hindsight Experience	May 26, 2023	D4RLImitation Learning	—Unverified
Learning Interpretable Models of Aircraft Handling Behaviour by Reinforcement Learning from Human Feedback	May 26, 2023	Reinforcement Learning (RL)	—Unverified
Distributional Reinforcement Learning with Dual Expectile-Quantile Regression	May 26, 2023	Continuous ControlDistributional Reinforcement Learning	—Unverified
A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents	May 26, 2023	Instruction FollowingReinforcement Learning (RL)	CodeCode Available
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes	May 25, 2023	Bayesian OptimisationInductive Bias	CodeCode Available
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models	May 25, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Deterministic policy gradient based optimal control with probabilistic constraints	May 25, 2023	Model Predictive Controlreinforcement-learning	—Unverified
Reward-Machine-Guided, Self-Paced Reinforcement Learning	May 25, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Matrix Estimation for Offline Reinforcement Learning with Low-Rank Structure	May 24, 2023	Matrix Completionreinforcement-learning	—Unverified
Decision-Aware Actor-Critic with Function Approximation and Theoretical Guarantees	May 24, 2023	Reinforcement Learning (RL)	CodeCode Available

Show:10 25 50

← PrevPage 200 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified