Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4801–4825 of 15113 papers

Title	Date	Tasks	Status
Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges	Jul 31, 2023	Reinforcement Learning (RL)Survey	—Unverified
Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints with Time Windows	Jul 29, 2023	reinforcement-learningReinforcement Learning	—Unverified
Using Implicit Behavior Cloning and Dynamic Movement Primitive to Facilitate Reinforcement Learning for Robot Motion Planning	Jul 29, 2023	Motion PlanningReinforcement Learning (RL)	—Unverified
PIMbot: Policy and Incentive Manipulation for Multi-Robot Reinforcement Learning in Social Dilemmas	Jul 29, 2023	Reinforcement Learning (RL)	CodeCode Available
Shrink-Perturb Improves Architecture Mixing during Population Based Training for Neural Architecture Search	Jul 28, 2023	Hyperparameter OptimizationImage Generation	CodeCode Available
Primitive Skill-based Robot Learning from Human Evaluative Feedback	Jul 28, 2023	reinforcement-learningReinforcement Learning	—Unverified
TrackAgent: 6D Object Tracking via Reinforcement Learning	Jul 28, 2023	ObjectObject Tracking	—Unverified
Dialogue Shaping: Empowering Agents through NPC Interaction	Jul 28, 2023	Knowledge Graphsreinforcement-learning	—Unverified
ETHER: Aligning Emergent Communication for Hindsight Experience Replay	Jul 28, 2023	Inductive BiasInstruction Following	—Unverified
Approximate Model-Based Shielding for Safe Reinforcement Learning	Jul 27, 2023	Atari Gamesmodel	CodeCode Available
Controlling the Latent Space of GANs through Reinforcement Learning: A Case Study on Task-based Image-to-Image Translation	Jul 26, 2023	Image-to-Image TranslationReinforcement Learning (RL)	—Unverified
Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks	Jul 26, 2023	Decision MakingLEMMA	—Unverified
Reinforcement Learning by Guided Safe Exploration	Jul 26, 2023	reinforcement-learningReinforcement Learning	—Unverified
Mode-constrained Model-based Reinforcement Learning via Gaussian Processes	Jul 25, 2023	Gaussian ProcessesModel-based Reinforcement Learning	CodeCode Available
Unbiased Weight Maximization	Jul 25, 2023	Reinforcement Learning (RL)	—Unverified
Structural Credit Assignment with Coordinated Exploration	Jul 25, 2023	Reinforcement Learning (RL)	—Unverified
The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation	Jul 25, 2023	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Reinforcement Learning -based Adaptation and Scheduling Methods for Multi-source DASH	Jul 25, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Offline Reinforcement Learning with On-Policy Q-Function Regularization	Jul 25, 2023	D4RLreinforcement-learning	—Unverified
Settling the Sample Complexity of Online Reinforcement Learning	Jul 25, 2023	reinforcement-learningReinforcement Learning	—Unverified
Counterfactual Explanation Policies in RL	Jul 25, 2023	counterfactualCounterfactual Explanation	—Unverified
Communication-Efficient Orchestrations for URLLC Service via Hierarchical Reinforcement Learning	Jul 25, 2023	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
ExWarp: Extrapolation and Warping-based Temporal Supersampling for High-frequency Displays	Jul 24, 2023	Reinforcement Learning (RL)	—Unverified
Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning	Jul 24, 2023	continuous-controlContinuous Control	—Unverified
On the Effectiveness of Offline RL for Dialogue Response Generation	Jul 23, 2023	Offline RLreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 193 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified