Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4026–4050 of 15113 papers

Title	Date	Tasks	Status	Score
The Natural Language of Actions	Feb 4, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	5
Modular Deep Reinforcement Learning with Temporal Logic Specifications	Sep 23, 2019	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Random Projection in Neural Episodic Control	Apr 3, 2019	Deep Reinforcement LearningReinforcement Learning	CodeCode Available	5
Risk-Aware Active Inverse Reinforcement Learning	Jan 8, 2019	Active Learningreinforcement-learning	CodeCode Available	5
Ranked Reward: Enabling Self-Play Reinforcement Learning for Combinatorial Optimization	Jul 4, 2018	Combinatorial Optimizationreinforcement-learning	CodeCode Available	5
Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving	Jun 5, 2023	Autonomous DrivingMotion Planning	CodeCode Available	5
The Option-Critic Architecture	Sep 16, 2016	reinforcement-learningReinforcement Learning	CodeCode Available	5
Better-than-Demonstrator Imitation Learning via Automatically-Ranked Demonstrations	Jul 9, 2019	Imitation Learningreinforcement-learning	CodeCode Available	5
Ranking Policy Decisions	Aug 31, 2020	Atari GamesReinforcement Learning (RL)	CodeCode Available	5
Ranking Policy Gradient	Jun 24, 2019	Policy Gradient MethodsReinforcement Learning	CodeCode Available	5
Ranking Sentences for Extractive Summarization with Reinforcement Learning	Feb 23, 2018	Document SummarizationExtractive Summarization	CodeCode Available	5
Marginal Policy Gradients: A Unified Family of Estimators for Bounded Action Spaces with Applications	Jun 13, 2018	continuous-controlContinuous Control	CodeCode Available	5
Offline RL with Smooth OOD Generalization in Convex Hull and its Neighborhood	Jun 10, 2025	Computational EfficiencyD4RL	CodeCode Available	5
Theory of Mind for Deep Reinforcement Learning in Hanabi	Jan 22, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Towards Understanding the Link Between Modularity and Performance in Neural Networks for Reinforcement Learning	May 13, 2022	Diversityreinforcement-learning	CodeCode Available	5
Risk-sensitive control as inference with Rényi divergence	Nov 4, 2024	Reinforcement Learning (RL)Variational Inference	CodeCode Available	5
Park: An Open Platform for Learning-Augmented Computer Systems	Dec 1, 2019	reinforcement-learningReinforcement Learning	CodeCode Available	5
The PlayStation Reinforcement Learning Environment (PSXLE)	Dec 12, 2019	OpenAI Gymreinforcement-learning	CodeCode Available	5
The Potential of the Return Distribution for Exploration in RL	Jun 11, 2018	reinforcement-learningReinforcement Learning	CodeCode Available	5
Risk-sensitive Inverse Reinforcement Learning via Semi- and Non-Parametric Methods	Nov 28, 2017	Decision Makingreinforcement-learning	CodeCode Available	5
Offline Safe Reinforcement Learning Using Trajectory Classification	Dec 19, 2024	Classificationreinforcement-learning	CodeCode Available	5
The Pump Scheduling Problem: A Real-World Scenario for Reinforcement Learning	Oct 20, 2022	Deep Reinforcement LearningOffline RL	CodeCode Available	5
Rate-Splitting for Intelligent Reflecting Surface-Aided Multiuser VR Streaming	Oct 21, 2022	Continuous ControlDeep Reinforcement Learning	CodeCode Available	5
Off-Policy Actor-Critic	May 22, 2012	reinforcement-learningReinforcement Learning	CodeCode Available	5
Off-Policy Actor-Critic for Adversarial Observation Robustness: Virtual Alternative Training via Symmetric Policy Evaluation	Jun 20, 2025	Reinforcement Learning (RL)	CodeCode Available	5

Show:10 25 50

← PrevPage 162 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified