Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4601–4625 of 15113 papers

Title	Date	Tasks	Status	Score
Neural Operator based Reinforcement Learning for Control of first-order PDEs with Spatially-Varying State Delay	Jan 30, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences	May 23, 2024	Reinforcement Learning (RL)	CodeCode Available	5
Which Experiences Are Influential for Your Agent? Policy Iteration with Turn-over Dropout	Jan 26, 2023	MuJoCoreinforcement-learning	CodeCode Available	5
Which Model to Trust: Assessing the Influence of Models on the Performance of Reinforcement Learning Algorithms for Continuous Control Tasks	Oct 25, 2021	Benchmarkingcontinuous-control	CodeCode Available	5
Red Teaming with Mind Reading: White-Box Adversarial Policies Against RL Agents	Sep 5, 2022	Red Teamingreinforcement-learning	CodeCode Available	5
Neural Optimizer Search with Reinforcement Learning	Sep 21, 2017	Machine Translationreinforcement-learning	CodeCode Available	5
On the Perturbed States for Transformed Input-robust Reinforcement Learning	Jul 31, 2024	DenoisingMuJoCo	CodeCode Available	5
Predictable Reinforcement Learning Dynamics through Entropy Rate Minimization	Nov 30, 2023	Policy Gradient Methodsreinforcement-learning	CodeCode Available	5
Sentence Simplification with Deep Reinforcement Learning	Mar 31, 2017	DecoderDeep Reinforcement Learning	CodeCode Available	5
Reinforcement Learning for Physical Layer Communications	Jun 22, 2021	Deep Reinforcement LearningMulti-Armed Bandits	CodeCode Available	5
Why People Skip Music? On Predicting Music Skips using Deep Reinforcement Learning	Jan 10, 2023	Deep Reinforcement LearningRecommendation Systems	CodeCode Available	5
Reinforcement Learning for Pivoting Task	Mar 1, 2017	continuous-controlContinuous Control	CodeCode Available	5
Reinforcement Learning for Portfolio Management	Sep 12, 2019	Data AugmentationManagement	CodeCode Available	5
Is Policy Learning Overrated?: Width-Based Planning and Active Learning for Atari	Sep 30, 2021	Active LearningAtari Games	CodeCode Available	5
Mildly Constrained Evaluation Policy for Offline Reinforcement Learning	Jun 6, 2023	D4RLMuJoCo	CodeCode Available	5
Separating value functions across time-scales	Feb 5, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
WiNGPT-3.0 Technical Report	May 23, 2025	DiagnosticMedQA	CodeCode Available	5
Identifying Expert Behavior in Offline Training Datasets Improves Behavioral Cloning of Robotic Manipulation Policies	Jan 30, 2023	Data AugmentationFeature Engineering	CodeCode Available	5
SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient	Sep 18, 2016	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
Sequence Adaptation via Reinforcement Learning in Recommender Systems	Jul 31, 2021	Recommendation Systemsreinforcement-learning	CodeCode Available	5
Predicting Head Movement in Panoramic Video: A Deep Reinforcement Learning Approach	Oct 30, 2017	Deep Reinforcement LearningPosition	CodeCode Available	5
Sequence Modeling of Temporal Credit Assignment for Episodic Reinforcement Learning	May 31, 2019	Deep Reinforcement LearningMuJoCo	CodeCode Available	5
WOFOSTGym: A Crop Simulator for Learning Annual and Perennial Crop Management Strategies	Feb 26, 2025	Decision MakingManagement	CodeCode Available	5
Predicting optimal value functions by interpolating reward functions in scalarized multi-objective reinforcement learning	Sep 11, 2019	Autonomous VehiclesMulti-Objective Reinforcement Learning	CodeCode Available	5
Reinforcement learning for Quantum Tiq-Taq-Toe	Nov 10, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	5

Show:10 25 50

← PrevPage 185 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified