Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9151–9175 of 15113 papers

Title	Date	Tasks	Status
Probing the Robustness of Trained Metrics for Conversational Dialogue Systems	Nov 16, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Probing Transfer in Deep Reinforcement Learning without Task Engineering	Oct 22, 2022	Deep Reinforcement LearningGame Design	—Unverified
Problem Dependent Reinforcement Learning Bounds Which Can Identify Bandit Structure in MDPs	Nov 3, 2019	Multi-Armed Banditsreinforcement-learning	—Unverified
Procedural Content Generation: Better Benchmarks for Transfer Reinforcement Learning	May 31, 2021	BenchmarkingDeep Learning	—Unverified
Processing Network Controls via Deep Reinforcement Learning	May 1, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Process Supervision-Guided Policy Optimization for Code Generation	Oct 23, 2024	Code GenerationReinforcement Learning (RL)	—Unverified
Production-based Cognitive Models as a Test Suite for Reinforcement Learning Algorithms	Nov 1, 2020	reinforcement-learningReinforcement Learning (RL)	—Unverified
Product Title Refinement via Multi-Modal Generative Adversarial Learning	Nov 11, 2018	AttributeGenerative Adversarial Network	—Unverified
Proficiency Constrained Multi-Agent Reinforcement Learning for Environment-Adaptive Multi UAV-UGV Teaming	Feb 10, 2020	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Profitable Strategy Design by Using Deep Reinforcement Learning for Trades on Cryptocurrency Markets	Jan 15, 2022	Deep Reinforcement LearningImitation Learning	—Unverified
Programmable Control of Ultrasound Swarmbots through Reinforcement Learning	Sep 30, 2022	DiagnosticNavigate	—Unverified
Programmatically Interpretable Reinforcement Learning	Apr 6, 2018	Car RacingDeep Reinforcement Learning	—Unverified
Programmatic Policy Extraction by Iterative Local Search	Jan 18, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Programmatic Reinforcement Learning without Oracles	Sep 29, 2021	Bilevel OptimizationDeep Reinforcement Learning	—Unverified
Programmatic Reward Design by Example	Dec 14, 2021	Reinforcement Learning (RL)	—Unverified
Program Synthesis Through Reinforcement Learning Guided Tree Search	Jun 8, 2018	Program Synthesisreinforcement-learning	—Unverified
Progress and summary of reinforcement learning on energy management of MPS-EV	Nov 8, 2022	energy managementManagement	—Unverified
Progressive extension of reinforcement learning action dimension for asymmetric assembly tasks	Apr 6, 2021	reinforcement-learningReinforcement Learning	—Unverified
Progressive Reinforcement Learning with Distillation for Multi-Skilled Motion Control	Feb 13, 2018	continuous-controlContinuous Control	—Unverified
Progressive-Resolution Policy Distillation: Leveraging Coarse-Resolution Simulations for Time-Efficient Fine-Resolution Policy Learning	Dec 10, 2024	Reinforcement Learning (RL)	—Unverified
PROGRESSOR: A Perceptually Guided Reward Estimator with Self-Supervised Online Refinement	Nov 26, 2024	Offline RLReinforcement Learning (RL)	—Unverified
Projected Natural Actor-Critic	Dec 1, 2013	reinforcement-learningReinforcement Learning	—Unverified
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning	Nov 25, 2023	Q-LearningReinforcement Learning (RL)	—Unverified
Projected State-action Balancing Weights for Offline Reinforcement Learning	Sep 10, 2021	Causal Inferencereinforcement-learning	—Unverified
Constrained Stochastic Nonconvex Optimization with State-dependent Markov Data	Jun 22, 2022	Reinforcement Learning (RL)Stochastic Optimization	—Unverified

Show:10 25 50

← PrevPage 367 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified