Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8526–8550 of 15113 papers

Title	Date	Tasks	Status
Probabilistic Shielding for Safe Reinforcement Learning	Mar 9, 2025	reinforcement-learningReinforcement Learning	—Unverified
Probabilistic Successor Representations with Kalman Temporal Differences	Oct 6, 2019	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Probabilistic View of Multi-agent Reinforcement Learning: A Unified Approach	Sep 25, 2019	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Probability Functional Descent: A Unifying Perspective on GANs, Variational Inference, and Reinforcement Learning	Jan 30, 2019	BIG-bench Machine Learningreinforcement-learning	—Unverified
Probe-Based Interventions for Modifying Agent Behavior	Jan 26, 2022	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Probing for Consciousness in Machines	Nov 25, 2024	Reinforcement Learning (RL)	—Unverified
Probing the Robustness of Trained Metrics for Conversational Dialogue Systems	Nov 16, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Probing Transfer in Deep Reinforcement Learning without Task Engineering	Oct 22, 2022	Deep Reinforcement LearningGame Design	—Unverified
Problem Dependent Reinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs	Nov 3, 2019	Multi-Armed Banditsreinforcement-learning	—Unverified
Procedural Content Generation: Better Benchmarks for Transfer Reinforcement Learning	May 31, 2021	BenchmarkingDeep Learning	—Unverified
Processing Network Controls via Deep Reinforcement Learning	May 1, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Process Supervision-Guided Policy Optimization for Code Generation	Oct 23, 2024	Code GenerationReinforcement Learning (RL)	—Unverified
Production-based Cognitive Models as a Test Suite for Reinforcement Learning Algorithms	Nov 1, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Product Title Refinement via Multi-Modal Generative Adversarial Learning	Nov 11, 2018	AttributeGenerative Adversarial Network	—Unverified
Proficiency Constrained Multi-Agent Reinforcement Learning for Environment-Adaptive Multi UAV-UGV Teaming	Feb 10, 2020	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Profitable Strategy Design by Using Deep Reinforcement Learning for Trades on Cryptocurrency Markets	Jan 15, 2022	Deep Reinforcement LearningImitation Learning	—Unverified
Programmable Control of Ultrasound Swarmbots through Reinforcement Learning	Sep 30, 2022	DiagnosticNavigate	—Unverified
Programmatically Interpretable Reinforcement Learning	Apr 6, 2018	Car RacingDeep Reinforcement Learning	—Unverified
Programmatic Policy Extraction by Iterative Local Search	Jan 18, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Programmatic Reinforcement Learning without Oracles	Sep 29, 2021	Bilevel OptimizationDeep Reinforcement Learning	—Unverified
Programmatic Reward Design by Example	Dec 14, 2021	Reinforcement Learning (RL)	—Unverified
Program Synthesis Through Reinforcement Learning Guided Tree Search	Jun 8, 2018	Program Synthesisreinforcement-learning	—Unverified
Progress and summary of reinforcement learning on energy management of MPS-EV	Nov 8, 2022	energy managementManagement	—Unverified
Progressive extension of reinforcement learning action dimension for asymmetric assembly tasks	Apr 6, 2021	reinforcement-learningReinforcement Learning	—Unverified
Progressive Reinforcement Learning with Distillation for Multi-Skilled Motion Control	Feb 13, 2018	continuous-controlContinuous Control	—Unverified

Show:10 25 50

← PrevPage 342 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified