Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3331–3340 of 15113 papers

Title	Date	Tasks	Status
AgentGraph: Towards Universal Dialogue Management with Structured Deep Reinforcement Learning	May 27, 2019	Deep Reinforcement LearningDialogue Management	—Unverified
Deciding What's Fair: Challenges of Applying Reinforcement Learning in Online Marketplaces	Oct 12, 2021	Fairnessreinforcement-learning	—Unverified
Deciding What to Model: Value-Equivalent Sampling for Reinforcement Learning	Jun 4, 2022	Decision MakingModel-based Reinforcement Learning	—Unverified
Attention-based Fault-tolerant Approach for Multi-agent Reinforcement Learning Systems	Oct 5, 2019	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making	Oct 4, 2023	Decision MakingReinforcement Learning (RL)	—Unverified
Decision-making at Unsignalized Intersection for Autonomous Vehicles: Left-turn Maneuver with Deep Reinforcement Learning	Aug 14, 2020	Autonomous VehiclesDecision Making	—Unverified
Decision-making for Autonomous Vehicles on Highway: Deep Reinforcement Learning with Continuous Action Horizon	Aug 26, 2020	Autonomous VehiclesDecision Making	—Unverified
Decision Making in Non-Stationary Environments with Policy-Augmented Monte Carlo Tree Search	Feb 25, 2022	Decision MakingDecision Making Under Uncertainty	—Unverified
Decision-making Strategy on Highway for Autonomous Vehicles using Deep Reinforcement Learning	Jul 16, 2020	Autonomous DrivingAutonomous Vehicles	—Unverified
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified

Show:10 25 50

← PrevPage 334 of 1512Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified