Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4801–4850 of 15113 papers

Title	Date	Tasks	Status
Reinforcement Learning for Generative AI: State of the Art, Opportunities and Open Research Challenges	Jul 31, 2023	Reinforcement Learning (RL)Survey	—Unverified
Reinforcement Learning Under Probabilistic Spatio-Temporal Constraints with Time Windows	Jul 29, 2023	reinforcement-learningReinforcement Learning	—Unverified
Using Implicit Behavior Cloning and Dynamic Movement Primitive to Facilitate Reinforcement Learning for Robot Motion Planning	Jul 29, 2023	Motion PlanningReinforcement Learning (RL)	—Unverified
PIMbot: Policy and Incentive Manipulation for Multi-Robot Reinforcement Learning in Social Dilemmas	Jul 29, 2023	Reinforcement Learning (RL)	CodeCode Available
Shrink-Perturb Improves Architecture Mixing during Population Based Training for Neural Architecture Search	Jul 28, 2023	Hyperparameter OptimizationImage Generation	CodeCode Available
Primitive Skill-based Robot Learning from Human Evaluative Feedback	Jul 28, 2023	reinforcement-learningReinforcement Learning	—Unverified
TrackAgent: 6D Object Tracking via Reinforcement Learning	Jul 28, 2023	ObjectObject Tracking	—Unverified
Dialogue Shaping: Empowering Agents through NPC Interaction	Jul 28, 2023	Knowledge Graphsreinforcement-learning	—Unverified
ETHER: Aligning Emergent Communication for Hindsight Experience Replay	Jul 28, 2023	Inductive BiasInstruction Following	—Unverified
Approximate Model-Based Shielding for Safe Reinforcement Learning	Jul 27, 2023	Atari Gamesmodel	CodeCode Available
Controlling the Latent Space of GANs through Reinforcement Learning: A Case Study on Task-based Image-to-Image Translation	Jul 26, 2023	Image-to-Image TranslationReinforcement Learning (RL)	—Unverified
Actions Speak What You Want: Provably Sample-Efficient Reinforcement Learning of the Quantal Stackelberg Equilibrium from Strategic Feedbacks	Jul 26, 2023	Decision MakingLEMMA	—Unverified
Reinforcement Learning by Guided Safe Exploration	Jul 26, 2023	reinforcement-learningReinforcement Learning	—Unverified
Mode-constrained Model-based Reinforcement Learning via Gaussian Processes	Jul 25, 2023	Gaussian ProcessesModel-based Reinforcement Learning	CodeCode Available
Unbiased Weight Maximization	Jul 25, 2023	Reinforcement Learning (RL)	—Unverified
Structural Credit Assignment with Coordinated Exploration	Jul 25, 2023	Reinforcement Learning (RL)	—Unverified
The Optimal Approximation Factors in Misspecified Off-Policy Value Function Estimation	Jul 25, 2023	Off-policy evaluationReinforcement Learning (RL)	—Unverified
Reinforcement Learning -based Adaptation and Scheduling Methods for Multi-source DASH	Jul 25, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Offline Reinforcement Learning with On-Policy Q-Function Regularization	Jul 25, 2023	D4RLreinforcement-learning	—Unverified
Settling the Sample Complexity of Online Reinforcement Learning	Jul 25, 2023	reinforcement-learningReinforcement Learning	—Unverified
Counterfactual Explanation Policies in RL	Jul 25, 2023	counterfactualCounterfactual Explanation	—Unverified
Communication-Efficient Orchestrations for URLLC Service via Hierarchical Reinforcement Learning	Jul 25, 2023	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
ExWarp: Extrapolation and Warping-based Temporal Supersampling for High-frequency Displays	Jul 24, 2023	Reinforcement Learning (RL)	—Unverified
Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning	Jul 24, 2023	continuous-controlContinuous Control	—Unverified
On the Effectiveness of Offline RL for Dialogue Response Generation	Jul 23, 2023	Offline RLreinforcement-learning	CodeCode Available
DIP-RL: Demonstration-Inferred Preference Learning in Minecraft	Jul 22, 2023	Decision MakingMinecraft	—Unverified
Game-Theoretic Robust Reinforcement Learning Handles Temporally-Coupled Perturbations	Jul 22, 2023	continuous-controlContinuous Control	—Unverified
Bridging the Reality Gap of Reinforcement Learning based Traffic Signal Control using Domain Randomization and Meta Learning	Jul 21, 2023	Meta-LearningReinforcement Learning (RL)	—Unverified
Towards practical reinforcement learning for tokamak magnetic control	Jul 21, 2023	reinforcement-learningReinforcement Learning	—Unverified
Reparameterized Policy Learning for Multimodal Trajectory Optimization	Jul 20, 2023	Reinforcement Learning (RL)	—Unverified
A reinforcement learning approach for VQA validation: an application to diabetic macular edema grading	Jul 19, 2023	Medical Image AnalysisQuestion Answering	—Unverified
Distributed 3D-Beam Reforming for Hovering-Tolerant UAVs Communication over Coexistence: A Deep-Q Learning for Intelligent Space-Air-Ground Integrated Networks	Jul 18, 2023	Q-LearningReinforcement Learning (RL)	—Unverified
Continuous-Time Reinforcement Learning: New Design Algorithms with Theoretical Insights and Performance Guarantees	Jul 18, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Data Cross-Segmentation for Improved Generalization in Reinforcement Learning Based Algorithmic Trading	Jul 18, 2023	Algorithmic Tradingreinforcement-learning	—Unverified
IxDRL: A Novel Explainable Deep Reinforcement Learning Toolkit based on Analyses of Interestingness	Jul 18, 2023	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Towards A Unified Agent with Foundation Models	Jul 18, 2023	Efficient ExplorationReinforcement Learning (RL)	—Unverified
REX: Rapid Exploration and eXploitation for AI Agents	Jul 18, 2023	AI AgentDecision Making	—Unverified
Quarl: A Learning-Based Quantum Circuit Optimizer	Jul 17, 2023	Reinforcement Learning (RL)	—Unverified
Basal-Bolus Advisor for Type 1 Diabetes (T1D) Patients Using Multi-Agent Reinforcement Learning (RL) Methodology	Jul 17, 2023	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified
An Alternative to Variance: Gini Deviation for Risk-averse Policy Gradient	Jul 17, 2023	Reinforcement Learning (RL)	—Unverified
Discovering User Types: Mapping User Traits by Task-Specific Behaviors in Reinforcement Learning	Jul 16, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
POMDP inference and robust solution via deep reinforcement learning: An application to railway optimal maintenance	Jul 16, 2023	Decision MakingDeep Reinforcement Learning	CodeCode Available
Magnetic Field-Based Reward Shaping for Goal-Conditioned Reinforcement Learning	Jul 16, 2023	reinforcement-learningReinforcement Learning	—Unverified
Seeing is not Believing: Robust Reinforcement Learning against Spurious Correlation	Jul 15, 2023	reinforcement-learningReinforcement Learning	—Unverified
Efficient Action Robust Reinforcement Learning with Probabilistic Policy Execution Uncertainty	Jul 15, 2023	reinforcement-learningReinforcement Learning	—Unverified
An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode Discovery in GFlowNets	Jul 15, 2023	Drug DiscoveryReinforcement Learning (RL)	—Unverified
Combining model-predictive control and predictive reinforcement learning for stable quadrupedal robot locomotion	Jul 15, 2023	Model Predictive Controlreinforcement-learning	—Unverified
Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative	Jul 13, 2023	Reinforcement Learning (RL)	—Unverified
Transformers in Reinforcement Learning: A Survey	Jul 12, 2023	Cloud ComputingCombinatorial Optimization	—Unverified
Learning Decentralized Partially Observable Mean Field Control for Artificial Collective Behavior	Jul 12, 2023	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 97 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified