Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10851–10875 of 15113 papers

Title	Date	Tasks	Status
Fever Basketball: A Complex, Flexible, and Asynchronized Sports Game Environment for Multi-agent Reinforcement Learning	Dec 6, 2020	Board GamesDeep Reinforcement Learning	—Unverified
FEVO: Financial Knowledge Expansion and Reasoning Evolution for Large Language Models	Jul 8, 2025	Logical ReasoningReinforcement Learning (RL)	—Unverified
Few-Shot Goal Inference for Visuomotor Learning and Planning	Sep 30, 2018	reinforcement-learningReinforcement Learning	—Unverified
Few-Shot Intent Inference via Meta-Inverse Reinforcement Learning	May 1, 2019	reinforcement-learningReinforcement Learning	—Unverified
Few-shot model-based adaptation in noisy conditions	Oct 16, 2020	modelReinforcement Learning (RL)	—Unverified
Few-Shot Multi-Hop Relation Reasoning over Knowledge Bases	Nov 1, 2020	Meta-Learningreinforcement-learning	—Unverified
Few-Shot Preference Learning for Human-in-the-Loop RL	Dec 6, 2022	Meta-LearningMulti-Task Learning	—Unverified
Learning to Generate Prompts for Dialogue Generation through Reinforcement Learning	Jun 8, 2022	Dialogue GenerationLanguage Modeling	—Unverified
Few-Shot Teamwork	Jul 19, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
FGAIF: Aligning Large Vision-Language Models with Fine-grained AI Feedback	Apr 7, 2024	AttributeHallucination	—Unverified
FiDi-RL: Incorporating Deep Reinforcement Learning with Finite-Difference Policy Search for Efficient Learning of Continuous Control	Jul 1, 2019	continuous-controlContinuous Control	—Unverified
Fight Fire with Fire: Defending Against Malicious RL Fine-Tuning via Reward Neutralization	May 7, 2025	Reinforcement Learning (RL)	—Unverified
Fighting Boredom in Recommender Systems with Linear Reinforcement Learning	Dec 1, 2018	Recommendation Systemsreinforcement-learning	—Unverified
Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching	Jun 24, 2023	Imitation LearningOffline RL	—Unverified
FightLadder: A Benchmark for Competitive Multi-Agent Reinforcement Learning	Jun 4, 2024	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Final Adaptation Reinforcement Learning for N-Player Games	Nov 29, 2021	Board GamesQ-Learning	—Unverified
Financial News-Driven LLM Reinforcement Learning for Portfolio Management	Nov 17, 2024	Decision MakingManagement	—Unverified
Financial Trading with Feature Preprocessing and Recurrent Reinforcement Learning	Sep 11, 2021	reinforcement-learningReinforcement Learning	—Unverified
Financial Vision Based Reinforcement Learning Trading Strategy	Feb 3, 2022	reinforcement-learningReinforcement Learning	—Unverified
Finding and Visualizing Weaknesses of Deep Reinforcement Learning Agents	Apr 2, 2019	Autonomous DrivingDecision Making	—Unverified
Finding Efficient Swimming Strategies in a Three Dimensional Chaotic Flow by Reinforcement Learning	Nov 15, 2017	Navigatereinforcement-learning	—Unverified
Analyzing Micro-Founded General Equilibrium Models with Many Agents using Deep Reinforcement Learning	Jan 3, 2022	Deep Reinforcement LearningGPU	—Unverified
Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for Change Captioning	Sep 30, 2020	Reinforcement Learning (RL)	—Unverified
Finding Needles in a Moving Haystack: Prioritizing Alerts with Adversarial Reinforcement Learning	Jun 20, 2019	Intrusion Detectionreinforcement-learning	—Unverified
Finding Optimal Policy for Queueing Models: New Parameterization	Jun 21, 2022	Navigatereinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 435 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified