Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7376–7400 of 15113 papers

Title	Date	Tasks	Status
FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback	Apr 7, 2024	AttributeHallucination	—Unverified
FiDi-RL: Incorporating Deep Reinforcement Learning with Finite-Difference Policy Search for Efficient Learning of Continuous Control	Jul 1, 2019	continuous-controlContinuous Control	—Unverified
Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization	May 7, 2025	Reinforcement Learning (RL)	—Unverified
Fighting Boredom in Recommender Systems with Linear Reinforcement Learning	Dec 1, 2018	Recommendation Systemsreinforcement-learning	—Unverified
Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching	Jun 24, 2023	Imitation LearningOffline RL	—Unverified
FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning	Jun 4, 2024	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Final Adaptation Reinforcement Learning for N-Player Games	Nov 29, 2021	Board GamesQ-Learning	—Unverified
Financial News-Driven LLM Reinforcement Learning for Portfolio Management	Nov 17, 2024	Decision MakingManagement	—Unverified
Financial Trading with Feature Preprocessing and Recurrent Reinforcement Learning	Sep 11, 2021	reinforcement-learningReinforcement Learning	—Unverified
Financial Vision Based Reinforcement Learning Trading Strategy	Feb 3, 2022	reinforcement-learningReinforcement Learning	—Unverified
Finding and Visualizing Weaknesses of Deep Reinforcement Learning Agents	Apr 2, 2019	Autonomous DrivingDecision Making	—Unverified
Finding Efficient Swimming Strategies in a Three Dimensional Chaotic Flow by Reinforcement Learning	Nov 15, 2017	Navigatereinforcement-learning	—Unverified
Analyzing Micro-Founded General Equilibrium Models with Many Agents using Deep Reinforcement Learning	Jan 3, 2022	Deep Reinforcement LearningGPU	—Unverified
Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for Change Captioning	Sep 30, 2020	Reinforcement Learning (RL)	—Unverified
Finding Needles in a Moving Haystack: Prioritizing Alerts with Adversarial Reinforcement Learning	Jun 20, 2019	Intrusion Detectionreinforcement-learning	—Unverified
Finding Optimal Policy for Queueing Models: New Parameterization	Jun 21, 2022	Navigatereinforcement-learning	—Unverified
Finding Regularized Competitive Equilibria of Heterogeneous Agent Macroeconomic Models with Reinforcement Learning	Feb 24, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Finding the best design parameters for optical nanostructures using reinforcement learning	Oct 18, 2018	BIG-bench Machine LearningQ-Learning	—Unverified
Find the Fruit: Designing a Zero-Shot Sim2Real Deep RL Planner for Occlusion Aware Plant Manipulation	May 22, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Fine-grained acceleration control for autonomous intersection management using deep reinforcement learning	May 30, 2017	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Fine-Grained Reward Optimization for Machine Translation using Error Severity Mappings	Nov 8, 2024	DecoderMachine Translation	—Unverified
Fine-Grained Session Recommendations in E-commerce using Deep Reinforcement Learning	Oct 20, 2022	Decision MakingDeep Reinforcement Learning	—Unverified
Finer Behavioral Foundation Models via Auto-Regressive Features and Advantage Weighting	Dec 5, 2024	D4RLOffline RL	—Unverified
Reducing Non-Normative Text Generation from Language Models	Jan 23, 2020	Language Modellingreinforcement-learning	—Unverified
Fine-tuning Diffusion Policies with Backpropagation Through Diffusion Timesteps	May 15, 2025	Autonomous DrivingDenoising	—Unverified

Show:10 25 50

← PrevPage 296 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified