Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10676–10700 of 15113 papers

Title	Date	Tasks	Status
Exploration by Maximizing Rényi Entropy for Reward-Free RL Framework	Jun 11, 2020	Q-LearningReinforcement Learning (RL)	—Unverified
Exploration by Random Network Distillation	Jan 17, 2022	Atari GamesDeep Reinforcement Learning	—Unverified
Exploration by Random Reward Perturbation	Jun 10, 2025	DiversityReinforcement Learning (RL)	—Unverified
Exploration by Uncertainty in Reward Space	Sep 27, 2018	Atari GamesEfficient Exploration	—Unverified
Exploration-Driven Representation Learning in Reinforcement Learning	Jun 13, 2021	reinforcement-learningReinforcement Learning	—Unverified
Exploration--Exploitation in MDPs with Options	Mar 25, 2017	Reinforcement LearningReinforcement Learning (RL)	—Unverified
Exploration-exploitation trade-off for continuous-time episodic reinforcement learning with linear-convex models	Dec 19, 2021	Model-based Reinforcement LearningReinforcement Learning (RL)	—Unverified
Exploration for Multi-task Reinforcement Learning with Deep Generative Models	Nov 29, 2016	reinforcement-learningReinforcement Learning	—Unverified
Exploration in Deep Reinforcement Learning: From Single-Agent to Multiagent Domain	Sep 14, 2021	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Exploration in Deep Reinforcement Learning: A Survey	May 2, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Exploration in Feature Space for Reinforcement Learning	Oct 5, 2017	Montezuma's Revengereinforcement-learning	—Unverified
Exploration in Interactive Personalized Music Recommendation: A Reinforcement Learning Approach	Nov 6, 2013	Bayesian InferenceMusic Recommendation	—Unverified
Exploration in Model-based Reinforcement Learning by Empirically Estimating Learning Progress	Dec 1, 2012	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Exploration in Model-based Reinforcement Learning with Randomized Reward	Jan 9, 2023	Efficient ExplorationModel-based Reinforcement Learning	—Unverified
Exploration in Reinforcement Learning with Deep Covering Options	May 1, 2020	reinforcement-learningReinforcement Learning	—Unverified
Exploration in Structured Reinforcement Learning	Jun 3, 2018	reinforcement-learningReinforcement Learning	—Unverified
Exploration is Harder than Prediction: Cryptographically Separating Reinforcement Learning from Supervised Learning	Apr 4, 2024	regressionReinforcement Learning (RL)	—Unverified
Exploration of Reinforcement Learning for Event Camera using Car-like Robots	Apr 2, 2020	Autonomous VehiclesCollision Avoidance	—Unverified
Exploration Potential	Sep 16, 2016	Multi-Armed Banditsreinforcement-learning	—Unverified
Exploration versus exploitation in reinforcement learning: a stochastic control approach	Dec 4, 2018	reinforcement-learningReinforcement Learning	—Unverified
Exploration with Multi-Sample Target Values for Distributional Reinforcement Learning	Feb 6, 2022	continuous-controlContinuous Control	—Unverified
Exploration with Principles for Diverse AI Supervision	Oct 13, 2023	Reinforcement Learning (RL)Unsupervised Reinforcement Learning	—Unverified
Exploration with Unreliable Intrinsic Reward in Multi-Agent Reinforcement Learning	Jun 5, 2019	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Exploratory Diffusion Model for Unsupervised Reinforcement Learning	Feb 11, 2025	Efficient Explorationmodel	—Unverified
Exploratory Mean-Variance Portfolio Optimization with Regime-Switching Market Dynamics	Jan 28, 2025	Portfolio OptimizationReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 428 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified