Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7951–8000 of 15113 papers

Title	Date	Tasks	Status
Convergence and Optimality of Policy Gradient Methods in Weakly Smooth Settings	Oct 30, 2021	Policy Gradient Methodsreinforcement-learning	—Unverified
Context Meta-Reinforcement Learning via Neuromodulation	Oct 30, 2021	continuous-controlContinuous Control	CodeCode Available
Adjacency constraint for efficient hierarchical reinforcement learning	Oct 30, 2021	continuous-controlContinuous Control	—Unverified
Learning Coordinated Terrain-Adaptive Locomotion by Imitating a Centroidal Dynamics Planner	Oct 30, 2021	Imitation LearningReinforcement Learning (RL)	—Unverified
A Decentralized Reinforcement Learning Framework for Efficient Passage of Emergency Vehicles	Oct 30, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Brick-by-Brick: Combinatorial Construction with Deep Reinforcement Learning	Oct 29, 2021	Deep Reinforcement LearningObject	—Unverified
Learning to Communicate with Reinforcement Learning for an Adaptive Traffic Control System	Oct 29, 2021	Multi-agent Reinforcement LearningQ-Learning	—Unverified
GalilAI: Out-of-Task Distribution Detection using Causal Active Experimentation for Safe Transfer RL	Oct 29, 2021	Out of Distribution (OOD) DetectionReinforcement Learning (RL)	—Unverified
Adaptive Discretization in Online Reinforcement Learning	Oct 29, 2021	Managementreinforcement-learning	—Unverified
Reinforced Workload Distribution Fairness	Oct 29, 2021	FairnessReinforcement Learning (RL)	—Unverified
Mixed Cooperative-Competitive Communication Using Multi-Agent Reinforcement Learning	Oct 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Open Problem: Tight Online Confidence Intervals for RKHS Elements	Oct 28, 2021	Reinforcement Learning (RL)	—Unverified
Efficient Meta Subspace Optimization	Oct 28, 2021	Reinforcement Learning (RL)	CodeCode Available
Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in Partially Observed Markov Decision Processes	Oct 28, 2021	Causal InferenceManagement	CodeCode Available
Accelerating Robotic Reinforcement Learning via Parameterized Action Primitives	Oct 28, 2021	Efficient Explorationreinforcement-learning	—Unverified
An Adaptable Approach to Learn Realistic Legged Locomotion without Examples	Oct 28, 2021	Reinforcement Learning (RL)	—Unverified
Choosing the Best of Both Worlds: Diverse and Novel Recommendations through Multi-Objective Reinforcement Learning	Oct 28, 2021	DiversityMulti-Objective Reinforcement Learning	—Unverified
Extracting Expert's Goals by What-if Interpretable Modeling	Oct 28, 2021	Additive modelsreinforcement-learning	—Unverified
Bayesian Sequential Optimal Experimental Design for Nonlinear Models Using Policy Gradient Reinforcement Learning	Oct 28, 2021	Experimental Designreinforcement-learning	—Unverified
Data Informed Residual Reinforcement Learning for High-Dimensional Robotic Tracking Control	Oct 28, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
D2RLIR : an improved and diversified ranking function in interactive recommendation systems based on deep reinforcement learning	Oct 28, 2021	Deep Reinforcement LearningDiversity	—Unverified
Comparing Heuristics, Constraint Optimization, and Reinforcement Learning for an Industrial 2D Packing Problem	Oct 27, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Enhancing Reinforcement Learning with discrete interfaces to learn the Dyck Language	Oct 27, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning	Oct 27, 2021	Decision MakingMulti-agent Reinforcement Learning	—Unverified
Finite Horizon Q-learning: Stability, Convergence, Simulations and an application on Smart Grids	Oct 27, 2021	Q-Learningreinforcement-learning	—Unverified
DESTA: A Framework for Safe Reinforcement Learning with Markov Games of Intervention	Oct 27, 2021	OpenAI Gymreinforcement-learning	—Unverified
A Subgame Perfect Equilibrium Reinforcement Learning Approach to Time-inconsistent Problems	Oct 27, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
The ODE Method for Asymptotic Statistics in Stochastic Approximation and Reinforcement Learning	Oct 27, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Stabilising viscous extensional flows using Reinforcement Learning	Oct 27, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
APPTeK: Agent-Based Predicate Prediction in Temporal Knowledge Graphs	Oct 27, 2021	Knowledge GraphsPrediction	—Unverified
Model based Multi-agent Reinforcement Learning with Tensor Decompositions	Oct 27, 2021	Model-based Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified
Transfer learning with causal counterfactual reasoning in Decision Transformers	Oct 27, 2021	counterfactualCounterfactual Reasoning	—Unverified
Reinforcement Learning in Linear MDPs: Constant Regret and Representation Selection	Oct 27, 2021	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning in Factored Action Spaces using Tensor Decompositions	Oct 27, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Towards Hyperparameter-free Policy Selection for Offline Reinforcement Learning	Oct 26, 2021	Off-policy evaluationOpen-Ended Question Answering	CodeCode Available
The Difficulty of Passive Learning in Deep Reinforcement Learning	Oct 26, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Multi-Agent Advisor Q-Learning	Oct 26, 2021	Decision MakingMulti-agent Reinforcement Learning	CodeCode Available
Fragment-based Sequential Translation for Molecular Optimization	Oct 26, 2021	Drug DiscoveryReinforcement Learning (RL)	—Unverified
Average-Reward Learning and Planning with Options	Oct 26, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Distributional Reinforcement Learning for Multi-Dimensional Reward Functions	Oct 26, 2021	Distributional Reinforcement Learningreinforcement-learning	CodeCode Available
Accelerating Distributed Deep Reinforcement Learning by In-Network Experience Sampling	Oct 26, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
EnTRPO: Trust Region Policy Optimization Method with Entropy Regularization	Oct 26, 2021	reinforcement-learningReinforcement Learning	—Unverified
Neural PPO-Clip Attains Global Optimality: A Hinge Loss Perspective	Oct 26, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Automating Control of Overestimation Bias for Reinforcement Learning	Oct 26, 2021	Continuous ControlQ-Learning	—Unverified
Learning Robust Controllers Via Probabilistic Model-Based Policy Search	Oct 26, 2021	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Applications of Multi-Agent Reinforcement Learning in Future Internet: A Comprehensive Survey	Oct 26, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Distributed Multi-Agent Deep Reinforcement Learning Framework for Whole-building HVAC Control	Oct 26, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Learning What to Memorize: Using Intrinsic Motivation to Form Useful Memory in Partially Observable Reinforcement Learning	Oct 25, 2021	FormPartially Observable Reinforcement Learning	—Unverified
Can Q-Learning be Improved with Advice?	Oct 25, 2021	Q-Learningreinforcement-learning	—Unverified
Common Information based Approximate State Representations in Multi-Agent Reinforcement Learning	Oct 25, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 160 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified