Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8951–9000 of 15113 papers

Title	Date	Tasks	Status
Multi-Objective SPIBB: Seldonian Offline Policy Improvement with Safety Constraints in Finite MDPs	May 31, 2021	Reinforcement Learning (RL)	—Unverified
Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning	May 31, 2021	Learning TheoryMulti-agent Reinforcement Learning	—Unverified
Deep Reinforcement Learning in Quantitative Algorithmic Trading: A Review	May 31, 2021	Algorithmic TradingDeep Reinforcement Learning	CodeCode Available
AppBuddy: Learning to Accomplish Tasks in Mobile Apps via Reinforcement Learning	May 31, 2021	OpenAI Gymreinforcement-learning	—Unverified
Reducing the Deployment-Time Inference Control Costs of Deep Reinforcement Learning Agents via an Asymmetric Architecture	May 30, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Shaped Policy Search for Evolutionary Strategies using Waypoints	May 30, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
On the Theory of Reinforcement Learning with Once-per-Episode Feedback	May 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Predictive Representation Learning for Language Modeling	May 29, 2021	Language ModelingLanguage Modelling	—Unverified
Gradient-Free Neural Network Training via Synaptic-Level Reinforcement Learning	May 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
A Survey of Deep Reinforcement Learning Algorithms for Motion Planning and Control of Autonomous Vehicles	May 29, 2021	Autonomous DrivingAutonomous Vehicles	—Unverified
Joint Optimization of Multi-Objective Reinforcement Learning with Policy Gradient Based Algorithm	May 28, 2021	Multi-Objective Reinforcement Learningreinforcement-learning	—Unverified
Reconfigurable Intelligent Surface-assisted Multi-UAV Networks: Efficient Resource Allocation with Deep Reinforcement Learning	May 28, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Learning Approximate and Exact Numeral Systems via Reinforcement Learning	May 28, 2021	reinforcement-learningReinforcement Learning	—Unverified
A nearly Blackwell-optimal policy gradient method	May 28, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs with a Generative Model	May 28, 2021	Q-Learningreinforcement-learning	—Unverified
Risk-Aware Transfer in Reinforcement Learning using Successor Features	May 28, 2021	Decision Makingreinforcement-learning	—Unverified
Task-Guided Inverse Reinforcement Learning Under Partial Information	May 28, 2021	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning reveals fundamental limits on the mixing of active particles	May 28, 2021	Open-Ended Question Answeringreinforcement-learning	—Unverified
Transferable Deep Reinforcement Learning Framework for Autonomous Vehicles with Joint Radar-Data Communications	May 28, 2021	Autonomous VehiclesDeep Reinforcement Learning	—Unverified
Stochastic Intervention for Causal Inference via Reinforcement Learning	May 28, 2021	Causal InferenceDecision Making	—Unverified
Reinforcement Learning for on-line Sequence Transformation	May 28, 2021	Machine Translationreinforcement-learning	—Unverified
Optimistic Reinforcement Learning by Forward Kullback-Leibler Divergence Optimization	May 27, 2021	reinforcement-learningReinforcement Learning	—Unverified
Pattern Transfer Learning for Reinforcement Learning in Order Dispatching	May 27, 2021	reinforcement-learningReinforcement Learning	—Unverified
Branching Dueling Q-Network Based Online Scheduling of a Microgrid With Distributed Energy Storage Systems	May 27, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Adversarial Intrinsic Motivation for Reinforcement Learning	May 27, 2021	Multi-Goal Reinforcement Learningreinforcement-learning	CodeCode Available
A Modular and Transferable Reinforcement Learning Framework for the Fleet Rebalancing Problem	May 27, 2021	Decision Makingreinforcement-learning	—Unverified
Context-aware taxi dispatching at city-scale using deep reinforcement learning	May 26, 2021	Action GenerationDeep Reinforcement Learning	—Unverified
Successive Convex Approximation Based Off-Policy Optimization for Constrained Reinforcement Learning	May 26, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Safe Model-based Off-policy Reinforcement Learning for Eco-Driving in Connected and Automated Hybrid Electric Vehicles	May 25, 2021	Deep Reinforcement LearningModel-based Reinforcement Learning	—Unverified
Transfer Learning and Curriculum Learning in Sokoban	May 25, 2021	reinforcement-learningReinforcement Learning	—Unverified
Unbiased Asymmetric Reinforcement Learning under Partial Observability	May 25, 2021	Partially Observable Reinforcement Learningreinforcement-learning	—Unverified
Trajectory Modeling via Random Utility Inverse Reinforcement Learning	May 25, 2021	Bayesian InferenceEconometrics	—Unverified
Towards Scalable Verification of Deep Reinforcement Learning	May 25, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent Reinforcement Learning	May 25, 2021	Deep Reinforcement LearningKnowledge Distillation	—Unverified
A Generalised Inverse Reinforcement Learning Framework	May 25, 2021	OpenAI Gymreinforcement-learning	—Unverified
Bayesian Nonparametric Reinforcement Learning in LTE and Wi-Fi Coexistence	May 25, 2021	Fairnessreinforcement-learning	—Unverified
A Comparison of Reward Functions in Q-Learning Applied to a Cart Position Problem	May 25, 2021	PositionQ-Learning	CodeCode Available
Interpretable UAV Collision Avoidance using Deep Reinforcement Learning	May 25, 2021	Collision AvoidanceDeep Reinforcement Learning	—Unverified
FNAS: Uncertainty-Aware Fast Neural Architecture Search	May 25, 2021	FairnessGPU	—Unverified
IGO-QNN: Quantum Neural Network Architecture for Inductive Grover Oracularization	May 25, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Verification of Dissipativity and Evaluation of Storage Function in Economic Nonlinear MPC using Q-Learning	May 24, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence	May 24, 2021	Reinforcement Learning (RL)	—Unverified
Room Clearance with Feudal Hierarchical Reinforcement Learning	May 24, 2021	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
An Efficient Application of Neuroevolution for Competitive Multiagent Learning	May 23, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Attention-based Reinforcement Learning for Real-Time UAV Semantic Communication	May 22, 2021	Deep Reinforcement LearningGraph Attention	—Unverified
Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Making by Reinforcement Learning	May 21, 2021	Decision MakingReinforcement Learning (RL)	—Unverified
An Exponential Lower Bound for Linearly Realizable MDP with Constant Suboptimality Gap	May 21, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Certification of Iterative Predictions in Bayesian Neural Networks	May 21, 2021	Reinforcement Learning (RL)	CodeCode Available
De-Biased Modelling of Search Click Behavior with Reinforcement Learning	May 21, 2021	Learning-To-Rankreinforcement-learning	—Unverified
Rule Augmented Unsupervised Constituency Parsing	May 21, 2021	Constituency Parsingreinforcement-learning	CodeCode Available

Show:10 25 50

← PrevPage 180 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified