Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4076–4100 of 15113 papers

Title	Date	Tasks	Status	Score
Third-Person Imitation Learning	Mar 6, 2017	Imitation Learningreinforcement-learning	CodeCode Available	5
Real-Time Bidding by Reinforcement Learning in Display Advertising	Jan 10, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	5
Real-time calibration of coherent-state receivers: learning by trial and error	Jan 28, 2020	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5
RLFlow: Optimising Neural Network Subgraph Transformation with World Models	May 3, 2022	Deep LearningModel-based Reinforcement Learning	CodeCode Available	5
Tiered Reinforcement Learning: Pessimism in the Face of Uncertainty and Constant Regret	May 25, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
RL-GAN-Net: A Reinforcement Learning Agent Controlled GAN Network for Real-Time Point Cloud Shape Completion	Apr 28, 2019	Generative Adversarial NetworkReinforcement Learning	CodeCode Available	5
RLgraph: Modular Computation Graphs for Deep Reinforcement Learning	Oct 21, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies	May 27, 2019	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	5
MM-KTD: Multiple Model Kalman Temporal Differences for Reinforcement Learning	May 30, 2020	Active Learningreinforcement-learning	CodeCode Available	5
Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning	Dec 17, 2024	Formreinforcement-learning	CodeCode Available	5
Multi-Timescale Ensemble Q-learning for Markov Decision Process Policy Optimization	Feb 8, 2024	Q-Learningreinforcement-learning	CodeCode Available	5
MM-R5: MultiModal Reasoning-Enhanced ReRanker via Reinforcement Learning for Document Retrieval	Jun 14, 2025	Instruction FollowingMultimodal Reasoning	CodeCode Available	5
Multi-timescale memory dynamics in a reinforcement learning network with attention-gated memory	Dec 28, 2017	reinforcement-learningReinforcement Learning	CodeCode Available	5
Time-R1: Towards Comprehensive Temporal Reasoning in LLMs	May 16, 2025	Question AnsweringReinforcement Learning (RL)	CodeCode Available	5
Real-Time Reinforcement Learning	Nov 11, 2019	continuous-controlContinuous Control	CodeCode Available	5
TinyQMIX: Distributed Access Control for mMTC via Multi-agent Reinforcement Learning	Nov 21, 2022	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available	5
PathNet: Evolution Channels Gradient Descent in Super Neural Networks	Jan 30, 2017	Continual Learningreinforcement-learning	CodeCode Available	5
Real-time visual tracking by deep reinforced decision making	Feb 21, 2017	Deep Reinforcement LearningReal-Time Visual Tracking	CodeCode Available	5
Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse	May 29, 2023	continuous-controlContinuous Control	CodeCode Available	5
RL-NCS: Reinforcement learning based data-driven approach for nonuniform compressed sensing	Jul 2, 2021	compressed sensingreinforcement-learning	CodeCode Available	5
Real-World Dexterous Object Manipulation based Deep Reinforcement Learning	Nov 22, 2021	Decision MakingDeep Reinforcement Learning	CodeCode Available	5
MOFGPT: Generative Design of Metal-Organic Frameworks using Language Models	May 30, 2025	reinforcement-learningReinforcement Learning	CodeCode Available	5
To Measure or Not: A Cost-Sensitive, Selective Measuring Environment for Agricultural Management Decisions with Reinforcement Learning	Jan 22, 2025	ManagementReinforcement Learning (RL)	CodeCode Available	5
ToolRL: Reward is All Tool Learning Needs	Apr 16, 2025	AllReinforcement Learning (RL)	CodeCode Available	5
Tools for Data-driven Modeling of Within-Hand Manipulation with Underactuated Adaptive Hands	Jun 8, 2020	Model-based Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	5

Show:10 25 50

← PrevPage 164 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified