Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10176–10200 of 15113 papers

Title	Date	Tasks	Status
Dual Behavior Regularized Reinforcement Learning	Sep 19, 2021	counterfactualreinforcement-learning	—Unverified
Dual Control for Approximate Bayesian Reinforcement Learning	Oct 13, 2015	regressionreinforcement-learning	—Unverified
Dual Ensemble Kalman Filter for Stochastic Optimal Control	Apr 10, 2024	reinforcement-learningReinforcement Learning (RL)	—Unverified
Dual Generator Offline Reinforcement Learning	Nov 2, 2022	Offline RLreinforcement-learning	—Unverified
Dual-Objective Reinforcement Learning with Novel Hamilton-Jacobi-Bellman Formulations	Jun 19, 2025	Reinforcement Learning (RL)	—Unverified
Dueling Deep Q Network for Highway Decision Making in Autonomous Vehicles: A Case Study	Jul 16, 2020	Autonomous VehiclesDecision Making	—Unverified
Dueling RL: Reinforcement Learning with Trajectory Preferences	Nov 8, 2021	reinforcement-learningReinforcement Learning	—Unverified
DyFEn: Agent-Based Fee Setting in Payment Channel Networks	Oct 15, 2022	BenchmarkingDeep Reinforcement Learning	—Unverified
Dynamical Distance Learning for Semi-Supervised and Unsupervised Skill Discovery	Jul 18, 2019	reinforcement-learningReinforcement Learning	—Unverified
Dynamically meeting performance objectives for multiple services on a service mesh	Oct 8, 2022	BlockingManagement	—Unverified
Dynamically writing coupled memories using a reinforcement learning agent, meeting physical bounds	May 6, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Dynamic Angle Selection in X-Ray CT: A Reinforcement Learning Approach to Optimal Stopping	Mar 16, 2025	Computed Tomography (CT)Experimental Design	—Unverified
Dynamic Bicycle Dispatching of Dockless Public Bicycle-sharing Systems using Multi-objective Reinforcement Learning	Jan 19, 2021	Multi-Objective Reinforcement LearningReinforcement Learning (RL)	—Unverified
Dynamic Channel Access via Meta-Reinforcement Learning	Dec 24, 2021	channel selectionDeep Reinforcement Learning	—Unverified
Dynamic Collaborative Multi-Agent Reinforcement Learning Communication for Autonomous Drone Reforestation	Nov 14, 2022	Graph Neural NetworkMulti-agent Reinforcement Learning	—Unverified
Dynamic Context Selection for Document-level Neural Machine Translation via Reinforcement Learning	Oct 9, 2020	Machine Translationreinforcement-learning	—Unverified
Dynamic Contrastive Skill Learning with State-Transition Based Skill Clustering and Dynamic Length Adjustment	Apr 21, 2025	Contrastive LearningDecision Making	—Unverified
Dynamic-Depth Context Tree Weighting	Dec 1, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Dynamic Dialogue Policy for Continual Reinforcement Learning	Apr 12, 2022	Continual Learningreinforcement-learning	—Unverified
Dynamic Dispatching for Large-Scale Heterogeneous Fleet via Multi-agent Deep Reinforcement Learning	Aug 24, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Dynamic Experience Replay	Mar 4, 2020	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Dynamic Face Video Segmentation via Reinforcement Learning	Jul 2, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Dynamic Graph Configuration with Reinforcement Learning for Connected Autonomous Vehicle Trajectories	Oct 14, 2019	Autonomous Vehiclesreinforcement-learning	—Unverified
Dynamic Horizon Value Estimation for Model-based Reinforcement Learning	Sep 21, 2020	Model-based Reinforcement LearningNovelty Detection	—Unverified
Dynamic Input for Deep Reinforcement Learning in Autonomous Driving	Jul 25, 2019	Autonomous DrivingDecision Making	—Unverified

Show:10 25 50

← PrevPage 408 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified