Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2951–3000 of 15113 papers

Title	Date	Tasks	Status
Comprehensive Review on the Control of Heat Pumps for Energy Flexibility in Distribution Networks	Feb 19, 2025	Model Predictive ControlReinforcement Learning (RL)	—Unverified
Optimizing Gene-Based Testing for Antibiotic Resistance Prediction	Feb 19, 2025	DiagnosticPrediction	—Unverified
Navigating Demand Uncertainty in Container Shipping: Deep Reinforcement Learning for Enabling Adaptive and Feasible Master Stowage Planning	Feb 18, 2025	Combinatorial OptimizationDeep Reinforcement Learning	CodeCode Available
LocalEscaper: A Weakly-supervised Framework with Regional Reconstruction for Scalable Neural TSP Solvers	Feb 18, 2025	Reinforcement Learning (RL)Traveling Salesman Problem	—Unverified
Integrating Reinforcement Learning, Action Model Learning, and Numeric Planning for Tackling Complex Tasks	Feb 18, 2025	Imitation LearningMinecraft	CodeCode Available
Demystifying Multilingual Chain-of-Thought in Process Reward Modeling	Feb 18, 2025	Reinforcement Learning (RL)	—Unverified
A Survey of Sim-to-Real Methods in RL: Progress, Prospects and Challenges with Foundation Models	Feb 18, 2025	Deep Reinforcement LearningRecommendation Systems	—Unverified
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning	Feb 18, 2025	3DGSAutonomous Driving	—Unverified
EPO: Explicit Policy Optimization for Strategic Reasoning in LLMs via Reinforcement Learning	Feb 18, 2025	NavigateReinforcement Learning (RL)	—Unverified
Scaling Test-Time Compute Without Verification or RL is Suboptimal	Feb 17, 2025	MathReinforcement Learning (RL)	—Unverified
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading	Feb 17, 2025	Decision Makingparameter-efficient fine-tuning	—Unverified
Robot Deformable Object Manipulation via NMPC-generated Demonstrations in Deep Reinforcement Learning	Feb 17, 2025	Deep Reinforcement LearningDeformable Object Manipulation	—Unverified
Learning Plasma Dynamics and Robust Rampdown Trajectories with Predict-First Experiments at TCV	Feb 17, 2025	Reinforcement Learning (RL)	—Unverified
Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning	Feb 17, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Intersectional Fairness in Reinforcement Learning with Large State and Constraint Spaces	Feb 17, 2025	FairnessReinforcement Learning (RL)	—Unverified
VLP: Vision-Language Preference Learning for Embodied Manipulation	Feb 17, 2025	Reinforcement Learning (RL)	—Unverified
FitLight: Federated Imitation Learning for Plug-and-Play Autonomous Traffic Signal Control	Feb 17, 2025	Imitation Learningreinforcement-learning	—Unverified
CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning	Feb 17, 2025	MuJoCoReinforcement Learning (RL)	—Unverified
Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making	Feb 17, 2025	Decision MakingEthics	—Unverified
Evaluating the Paperclip Maximizer: Are RL-Based Language Models More Likely to Pursue Instrumental Goals?	Feb 16, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Scalable Multi-Agent Offline Reinforcement Learning and the Role of Information	Feb 16, 2025	InformativenessReinforcement Learning (RL)	—Unverified
Rule-Bottleneck Reinforcement Learning: Joint Explanation and Decision Optimization for Resource Allocation with Language Agents	Feb 15, 2025	Decision MakingDeep Reinforcement Learning	—Unverified
Tackling the Zero-Shot Reinforcement Learning Loss Directly	Feb 15, 2025	reinforcement-learningReinforcement Learning	—Unverified
BeamDojo: Learning Agile Humanoid Locomotion on Sparse Footholds	Feb 14, 2025	Reinforcement Learning (RL)	—Unverified
Dynamic Reinforcement Learning for Actors	Feb 14, 2025	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning in Strategy-Based and Atari Games: A Review of Google DeepMinds Innovations	Feb 14, 2025	Atari GamesGame of Go	—Unverified
Provably Efficient RL under Episode-Wise Safety in Constrained MDPs with Linear Function Approximation	Feb 14, 2025	Reinforcement Learning (RL)	—Unverified
Causal Information Prioritization for Efficient Reinforcement Learning	Feb 14, 2025	continuous-controlContinuous Control	—Unverified
A Survey of Reinforcement Learning for Optimization in Automation	Feb 13, 2025	Meta-LearningNavigate	—Unverified
Diverse Transformer Decoding for Offline Reinforcement Learning Using Financial Algorithmic Approaches	Feb 13, 2025	D4RLOffline RL	—Unverified
Safe Reinforcement Learning-based Control for Hydrogen Diesel Dual-Fuel Engines	Feb 13, 2025	Model Predictive ControlReinforcement Learning (RL)	—Unverified
Necessary and Sufficient Oracles: Toward a Computational Taxonomy For Reinforcement Learning	Feb 12, 2025	regressionReinforcement Learning (RL)	—Unverified
A Survey on Data-Centric AI: Tabular Learning from Reinforcement Learning and Generative AI Perspective	Feb 12, 2025	Feature Engineeringfeature selection	—Unverified
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards	Feb 12, 2025	Reinforcement Learning (RL)	—Unverified
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping	Feb 12, 2025	Reinforcement Learning (RL)Robot Manipulation	—Unverified
Hierarchical Multi-Agent Framework for Carbon-Efficient Liquid-Cooled Data Center Clusters	Feb 12, 2025	Cloud ComputingReinforcement Learning (RL)	—Unverified
Optimal Actuator Attacks on Autonomous Vehicles Using Reinforcement Learning	Feb 11, 2025	Autonomous Vehiclesreinforcement-learning	—Unverified
Exploratory Diffusion Model for Unsupervised Reinforcement Learning	Feb 11, 2025	Efficient Explorationmodel	—Unverified
A Survey of In-Context Reinforcement Learning	Feb 11, 2025	In-Context Reinforcement Learningreinforcement-learning	—Unverified
Towards a Formal Theory of the Need for Competence via Computational Intrinsic Motivation	Feb 11, 2025	Reinforcement Learning (RL)	—Unverified
Near-Optimal Sample Complexity in Reward-Free Kernel-Based Reinforcement Learning	Feb 11, 2025	Reinforcement Learning (RL)	—Unverified
Active Advantage-Aligned Online Reinforcement Learning with Offline Data	Feb 11, 2025	Offline RLreinforcement-learning	CodeCode Available
Advancing Autonomous VLM Agents via Variational Subgoal-Conditioned Reinforcement Learning	Feb 11, 2025	Decision Makingreinforcement-learning	—Unverified
Model Selection for Off-policy Evaluation: New Algorithms and Experimental Protocol	Feb 11, 2025	Model SelectionOff-policy evaluation	—Unverified
A view on learning robust goal-conditioned value functions: Interplay between RL and MPC	Feb 10, 2025	Model Predictive ControlReinforcement Learning (RL)	CodeCode Available
Smell of Source: Learning-Based Odor Source Localization with Molecular Communication	Feb 10, 2025	Computational EfficiencyDisaster Response	—Unverified
Select before Act: Spatially Decoupled Action Repetition for Continuous Control	Feb 10, 2025	continuous-controlContinuous Control	—Unverified
Intelligent Offloading in Vehicular Edge Computing: A Comprehensive Review of Deep Reinforcement Learning Approaches and Architectures	Feb 10, 2025	Decision MakingDeep Reinforcement Learning	—Unverified
Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models	Feb 8, 2025	Conformal PredictionDecision Making	CodeCode Available
Sequential Stochastic Combinatorial Optimization Using Hierarchal Reinforcement Learning	Feb 8, 2025	Combinatorial OptimizationComputational Efficiency	—Unverified

Show:10 25 50

← PrevPage 60 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified