Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3901–3950 of 15113 papers

Title	Date	Tasks	Status
A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning	May 29, 2024	Continual LearningDeep Reinforcement Learning	CodeCode Available
RLeXplore: Accelerating Research in Intrinsically-Motivated Reinforcement Learning	May 29, 2024	reinforcement-learningReinforcement Learning	—Unverified
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF	May 29, 2024	reinforcement-learningReinforcement Learning	—Unverified
Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies	May 29, 2024	Metric LearningOff-policy evaluation	CodeCode Available
Large Language Model-Driven Curriculum Design for Mobile Networks	May 28, 2024	Language ModelingLanguage Modelling	CodeCode Available
Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment	May 28, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
LeDex: Training LLMs to Better Self-Debug and Explain Code	May 28, 2024	Code GenerationReinforcement Learning (RL)	—Unverified
Extreme Value Monte Carlo Tree Search	May 28, 2024	Board GamesReinforcement Learning (RL)	—Unverified
Safe Reinforcement Learning in Black-Box Environments via Adaptive Shielding	May 28, 2024	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Rethinking Pruning for Backdoor Mitigation: An Optimization Perspective	May 28, 2024	backdoor defenseGraph Neural Network	—Unverified
Highway Reinforcement Learning	May 28, 2024	Q-Learningreinforcement-learning	—Unverified
Imitating from auxiliary imperfect demonstrations via Adversarial Density Weighted Regression	May 28, 2024	Imitation LearningMuJoCo	CodeCode Available
Mollification Effects of Policy Gradient Methods	May 28, 2024	continuous-controlContinuous Control	—Unverified
Structured Graph Network for Constrained Robot Crowd Navigation with Low Fidelity Simulation	May 27, 2024	Reinforcement Learning (RL)	—Unverified
Surprise-Adaptive Intrinsic Motivation for Unsupervised Reinforcement Learning	May 27, 2024	reinforcement-learningReinforcement Learning	CodeCode Available
Ontology-Enhanced Decision-Making for Autonomous Agents in Dynamic and Partially Observable Environments	May 27, 2024	Decision MakingReinforcement Learning (RL)	—Unverified
Oracle-Efficient Reinforcement Learning for Max Value Ensembles	May 27, 2024	reinforcement-learningReinforcement Learning	—Unverified
Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales	May 27, 2024	Atari GamesMuJoCo	CodeCode Available
Trajectory Data Suffices for Statistically Efficient Learning in Offline RL with Linear q^π-Realizability and Concentrability	May 27, 2024	Computational EfficiencyOffline RL	—Unverified
Biological Neurons Compete with Deep Reinforcement Learning in Sample Efficiency in a Simulated Gameworld	May 27, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified
Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning	May 26, 2024	reinforcement-learningReinforcement Learning	—Unverified
Safe and Balanced: A Framework for Constrained Multi-Objective Reinforcement Learning	May 26, 2024	Multi-Objective Reinforcement Learningreinforcement-learning	CodeCode Available
Competing for pixels: a self-play algorithm for weakly-supervised segmentation	May 26, 2024	Binary ClassificationImage Segmentation	CodeCode Available
Reinforcement Learning for Jump-Diffusions, with Financial Applications	May 26, 2024	Q-Learningreinforcement-learning	—Unverified
An Evolutionary Framework for Connect-4 as Test-Bed for Comparison of Advanced Minimax, Q-Learning and MCTS	May 26, 2024	Decision MakingQ-Learning	—Unverified
Adaptive Q-Network: On-the-fly Target Selection for Deep Reinforcement Learning	May 25, 2024	Atari GamesAutoML	—Unverified
AIGB: Generative Auto-bidding via Conditional Diffusion Modeling	May 25, 2024	Reinforcement Learning (RL)	—Unverified
Constrained Ensemble Exploration for Unsupervised Skill Discovery	May 25, 2024	Reinforcement Learning (RL)Unsupervised Reinforcement Learning	—Unverified
Human-in-the-loop Reinforcement Learning for Data Quality Monitoring in Particle Physics Experiments	May 24, 2024	Data AugmentationReinforcement Learning (RL)	—Unverified
SF-DQN: Provable Knowledge Transfer using Successor Feature for Deep Reinforcement Learning	May 24, 2024	Deep Reinforcement LearningQ-Learning	—Unverified
Embedding-Aligned Language Models	May 24, 2024	Reinforcement Learning (RL)Text Generation	—Unverified
Extracting Heuristics from Large Language Models for Reward Shaping in Reinforcement Learning	May 24, 2024	Language ModellingLarge Language Model	—Unverified
Cooperative Backdoor Attack in Decentralized Reinforcement Learning with Theoretical Guarantee	May 24, 2024	Backdoor Attackreinforcement-learning	—Unverified
TrojanForge: Generating Adversarial Hardware Trojan Examples Using Reinforcement Learning	May 24, 2024	reinforcement-learningReinforcement Learning	—Unverified
Knowledge-Informed Auto-Penetration Testing Based on Reinforcement Learning with Reward Machine	May 24, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
Model-free reinforcement learning with noisy actions for automated experimental control in optics	May 24, 2024	Reinforcement Learning (RL)	CodeCode Available
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity	May 23, 2024	continuous-controlContinuous Control	CodeCode Available
Efficiently Training Deep-Learning Parametric Policies using Lagrangian Duality	May 23, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Which Experiences Are Influential for RL Agents? Efficiently Estimating The Influence of Experiences	May 23, 2024	Reinforcement Learning (RL)	CodeCode Available
Variational Delayed Policy Optimization	May 23, 2024	MuJoCoReinforcement Learning (RL)	CodeCode Available
Exclusively Penalized Q-learning for Offline Reinforcement Learning	May 23, 2024	Offline RLQ-Learning	—Unverified
A finite time analysis of distributed Q-learning	May 23, 2024	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Policy Gradient Methods for Risk-Sensitive Distributional Reinforcement Learning with Provable Convergence	May 23, 2024	Distributional Reinforcement LearningPolicy Gradient Methods	—Unverified
Blood Glucose Control Via Pre-trained Counterfactual Invertible Neural Networks	May 23, 2024	counterfactualCounterfactual Inference	—Unverified
Large Language Models (LLMs) Assisted Wireless Network Deployment in Urban Settings	May 22, 2024	NavigateReinforcement Learning (RL)	—Unverified
Autonomous Algorithm for Training Autonomous Vehicles with Minimal Human Intervention	May 22, 2024	Autonomous DrivingAutonomous Vehicles	—Unverified
Learning to sample fibers for goodness-of-fit testing	May 22, 2024	Reinforcement Learning (RL)	—Unverified
Lusifer: LLM-based User SImulated Feedback Environment for online Recommender systems	May 22, 2024	Collaborative FilteringRecommendation Systems	CodeCode Available
Leader Reward for POMO-Based Neural Combinatorial Optimization	May 22, 2024	Combinatorial OptimizationReinforcement Learning (RL)	—Unverified
HighwayLLM: Decision-Making and Navigation in Highway Driving with RL-Informed Language Model	May 22, 2024	Autonomous DrivingAutonomous Vehicles	—Unverified

Show:10 25 50

← PrevPage 79 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified