Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10876–10900 of 15113 papers

Title	Date	Tasks	Status
Finding Regularized Competitive Equilibria of Heterogeneous Agent Macroeconomic Models with Reinforcement Learning	Feb 24, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Finding the best design parameters for optical nanostructures using reinforcement learning	Oct 18, 2018	BIG-bench Machine LearningQ-Learning	—Unverified
Find the Fruit: Designing a Zero-Shot Sim2Real Deep RL Planner for Occlusion Aware Plant Manipulation	May 22, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Fine-grained acceleration control for autonomous intersection management using deep reinforcement learning	May 30, 2017	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings	Nov 8, 2024	DecoderMachine Translation	—Unverified
Fine-Grained Session Recommendations in E-commerce using Deep Reinforcement Learning	Oct 20, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
Finer Behavioral Foundation Models via Auto-Regressive Features and Advantage Weighting	Dec 5, 2024	D4RLOffline RL	—Unverified
Reducing Non-Normative Text Generation from Language Models	Jan 23, 2020	Language Modellingreinforcement-learning	—Unverified
Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps	May 15, 2025	Autonomous DrivingDenoising	—Unverified
Finetuning from Offline Reinforcement Learning: Challenges, Trade-offs and Practical Solutions	Mar 30, 2023	DiversityOffline RL	—Unverified
Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning	May 16, 2024	Decision MakingInstruction Following	—Unverified
Fine-Tuning Next-Scale Visual Autoregressive Models with Group Relative Policy Optimization	May 29, 2025	Reinforcement Learning (RL)	—Unverified
Fine-Tuning Offline Reinforcement Learning with Model-Based Policy Optimization	Jan 1, 2021	D4RLMuJoCo	—Unverified
Finetuning Offline World Models in the Real World	Oct 24, 2023	Offline RLReinforcement Learning (RL)	—Unverified
Fingerprint Policy Optimisation for Robust Reinforcement Learning	May 27, 2018	Bayesian OptimisationContinuous Control	—Unverified
Finite Horizon Q-learning: Stability, Convergence, Simulations and an application on Smart Grids	Oct 27, 2021	Q-Learningreinforcement-learning	—Unverified
Finite-Sample Analysis For Decentralized Batch Multi-Agent Reinforcement Learning With Networked Agents	Dec 6, 2018	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Finite Sample Analyses for TD(0) with Function Approximation	Apr 4, 2017	reinforcement-learningReinforcement Learning	—Unverified
Non-Asymptotic Analysis for Two Time-scale TDC with General Smooth Function Approximation	Apr 7, 2021	reinforcement-learningReinforcement Learning	—Unverified
Finite-sample Analysis of Greedy-GQ with Linear Function Approximation under Markovian Noise	May 20, 2020	reinforcement-learningReinforcement Learning	—Unverified
Finite Sample Analysis of LSTD with Random Projections and Eligibility Traces	May 25, 2018	reinforcement-learningReinforcement Learning	—Unverified
Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency	Feb 5, 2021	Off-policy evaluationreinforcement-learning	—Unverified
Finite-Sample Analysis of Stochastic Approximation Using Smooth Convex Envelopes	Feb 3, 2020	Q-LearningReinforcement Learning	—Unverified
Finite Sample Analysis of the GTD Policy Evaluation Algorithms in Markov Setting	Sep 21, 2018	reinforcement-learningReinforcement Learning	—Unverified
Finite Sample Analysis of Two-Timescale Stochastic Approximation with Applications to Reinforcement Learning	Mar 15, 2017	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 436 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified