Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2926–2950 of 15113 papers

Title	Date	Tasks	Status
AI-as-a-Service Toolkit for Human-Centered Intelligence in Autonomous Driving	Feb 3, 2022	Autonomous Drivingreinforcement-learning	—Unverified
AttackGNN: Red-Teaming GNNs in Hardware Security Using Reinforcement Learning	Feb 21, 2024	Graph Neural NetworkRed Teaming	—Unverified
A* Tree Search for Portfolio Management	Jan 7, 2019	Deep Reinforcement LearningManagement	—Unverified
ACECODER: Acing Coder RL via Automated Test-Case Synthesis	Feb 3, 2025	HumanEvalmbpp	—Unverified
A Hysteretic Q-learning Coordination Framework for Emerging Mobility Systems in Smart Cities	Nov 5, 2020	Q-Learningreinforcement-learning	—Unverified
A Transferable Approach for Partitioning Machine Learning Models on Multi-Chip-Modules	Dec 7, 2021	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified
Constrained Reinforcement Learning Has Zero Duality Gap	Oct 29, 2019	reinforcement-learningReinforcement Learning	—Unverified
A Transferable and Automatic Tuning of Deep Reinforcement Learning for Cost Effective Phishing Detection	Sep 19, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Adaptive and Multiple Time-scale Eligibility Traces for Online Deep Reinforcement Learning	Aug 23, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Deciding What's Fair: Challenges of Applying Reinforcement Learning in Online Marketplaces	Oct 12, 2021	Fairnessreinforcement-learning	—Unverified
Deciding What to Model: Value-Equivalent Sampling for Reinforcement Learning	Jun 4, 2022	Decision MakingModel-based Reinforcement Learning	—Unverified
Decision ConvFormer: Local Filtering in MetaFormer is Sufficient for Decision Making	Oct 4, 2023	Decision MakingReinforcement Learning (RL)	—Unverified
ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories	Jun 6, 2024	Data Augmentationreinforcement-learning	—Unverified
A Tractable Algorithm For Finite-Horizon Continuous Reinforcement Learning	Jun 26, 2019	reinforcement-learningReinforcement Learning	—Unverified
A Hybrid PAC Reinforcement Learning Algorithm	Sep 5, 2020	Q-Learningreinforcement-learning	—Unverified
A Hybrid Neuro-Symbolic approach for Text-Based Games using Inductive Logic Programming	Nov 21, 2021	Inductive logic programmingNatural Language Understanding	—Unverified
Adaptive Aggregation for Safety-Critical Control	Feb 7, 2023	reinforcement-learningReinforcement Learning	—Unverified
Deceptive Reinforcement Learning for Privacy-Preserving Planning	Feb 5, 2021	Privacy Preservingreinforcement-learning	—Unverified
INTAGS: Interactive Agent-Guided Simulation	Sep 4, 2023	Algorithmic TradingCausal Inference	—Unverified
At Human Speed: Deep Reinforcement Learning with Action Delay	Oct 16, 2018	Board GamesDeep Reinforcement Learning	—Unverified
Adaptive Adversarial Training for Meta Reinforcement Learning	Apr 27, 2021	Generative Adversarial NetworkMeta-Learning	—Unverified
A Hybrid Approach for Reinforcement Learning Using Virtual Policy Gradient for Balancing an Inverted Pendulum	Feb 6, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
A Fast Convergence Theory for Offline Decision Making	Jun 3, 2024	Decision MakingOffline RL	—Unverified
ACE: An Actor Ensemble Algorithm for Continuous Control with Tree Search	Nov 6, 2018	continuous-controlContinuous Control	—Unverified
AACC: Asymmetric Actor-Critic in Contextual Reinforcement Learning	Aug 3, 2022	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 118 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified