Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4601–4650 of 15113 papers

Title	Date	Tasks	Status	Hype
Safe Model-Based Reinforcement Learning with an Uncertainty-Aware Reachability Certificate	Oct 14, 2022	Model-based Reinforcement Learningreinforcement-learning	CodeCode Available	1
Adaptive patch foraging in deep reinforcement learning agents	Oct 14, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Query Rewriting for Effective Misinformation Discovery	Oct 14, 2022	Misinformationreinforcement-learning	—Unverified	0
Abstract-to-Executable Trajectory Translation for One-Shot Task Generalization	Oct 14, 2022	Few-Shot Imitation LearningReinforcement Learning (RL)	CodeCode Available	1
Distributional Reward Estimation for Effective Multi-Agent Deep Reinforcement Learning	Oct 14, 2022	Deep Reinforcement LearningMulti-agent Reinforcement Learning	CodeCode Available	0
A Reinforcement Learning Approach to Estimating Long-term Treatment Effects	Oct 14, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Frame Mining: a Free Lunch for Learning Robotic Manipulation from 3D Point Clouds	Oct 14, 2022	3D Point Cloud Reinforcement LearningImitation Learning	CodeCode Available	1
A Scalable Finite Difference Method for Deep Reinforcement Learning	Oct 14, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Just Round: Quantized Observation Spaces Enable Memory Efficient Learning of Dynamic Locomotion	Oct 14, 2022	Deep Reinforcement LearningQuantization	CodeCode Available	0
Deep reinforcement learning for automatic run-time adaptation of UWB PHY radio settings	Oct 13, 2022	Deep Reinforcement LearningIndoor Localization	—Unverified	0
A Concise Introduction to Reinforcement Learning in Robotics	Oct 13, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Harfang3D Dog-Fight Sandbox: A Reinforcement Learning Research Platform for the Customized Control Tasks of Fighter Aircrafts	Oct 13, 2022	Atari GamesDecision Making	CodeCode Available	2
Bootstrap Advantage Estimation for Policy Optimization in Reinforcement Learning	Oct 13, 2022	Data Augmentationreinforcement-learning	CodeCode Available	0
Reinforcement Learning with Unbiased Policy Evaluation and Linear Function Approximation	Oct 13, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Object-Category Aware Reinforcement Learning	Oct 13, 2022	Feature EngineeringObject	—Unverified	0
Visual Reinforcement Learning with Self-Supervised 3D Representations	Oct 13, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Personalized Federated Hypernetworks for Privacy Preservation in Multi-Task Reinforcement Learning	Oct 13, 2022	Federated LearningMulti-agent Reinforcement Learning	—Unverified	0
Towards Multi-Agent Reinforcement Learning driven Over-The-Counter Market Simulations	Oct 13, 2022	Deep Reinforcement LearningMulti-agent Reinforcement Learning	—Unverified	0
Policy Gradient With Serial Markov Chain Reasoning	Oct 13, 2022	Decision MakingMuJoCo	—Unverified	0
Optimal Control of Material Micro-Structures	Oct 13, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Multi-agent Dynamic Algorithm Configuration	Oct 13, 2022	Multi-Armed BanditsReinforcement Learning (RL)	CodeCode Available	1
Sustainable Online Reinforcement Learning for Auto-bidding	Oct 13, 2022	Q-Learningreinforcement-learning	CodeCode Available	1
Towards Trustworthy Automatic Diagnosis Systems by Emulating Doctors' Reasoning with Deep Reinforcement Learning	Oct 13, 2022	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
Observed Adversaries in Deep Reinforcement Learning	Oct 13, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified	0
Output Feedback Adaptive Optimal Control of Affine Nonlinear systems with a Linear Measurement Model	Oct 13, 2022	Model-based Reinforcement Learningreinforcement-learning	—Unverified	0
Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief	Oct 13, 2022	D4RLOffline RL	CodeCode Available	0
A Mixture of Surprises for Unsupervised Reinforcement Learning	Oct 13, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Efficient circuit implementation for coined quantum walks on binary trees and application to reinforcement learning	Oct 13, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Dissipative residual layers for unsupervised implicit parameterization of data manifolds	Oct 13, 2022	DenoisingReinforcement Learning (RL)	—Unverified	0
Causality-driven Hierarchical Structure Discovery for Reinforcement Learning	Oct 13, 2022	Hierarchical Reinforcement LearningMinecraft	—Unverified	0
Contrastive Retrospection: honing in on critical steps for rapid learning and generalization in RL	Oct 12, 2022	Contrastive LearningOut-of-Distribution Generalization	CodeCode Available	1
Real World Offline Reinforcement Learning with Realistic Data Source	Oct 12, 2022	Imitation Learningreinforcement-learning	—Unverified	0
Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories	Oct 12, 2022	D4RLOffline RL	CodeCode Available	1
Reinforcement Learning with Automated Auxiliary Loss Search	Oct 12, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Smooth Trajectory Collision Avoidance through Deep Reinforcement Learning	Oct 12, 2022	Autonomous NavigationCollision Avoidance	—Unverified	0
DQLAP: Deep Q-Learning Recommender Algorithm with Update Policy for a Real Steam Turbine System	Oct 12, 2022	Deep LearningFault Detection	—Unverified	0
Efficient Adversarial Training without Attacking: Worst-Case-Aware Robust Reinforcement Learning	Oct 12, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
A Unified Framework for Alternating Offline Model Training and Policy Learning	Oct 12, 2022	continuous-controlContinuous Control	CodeCode Available	0
Explaining Online Reinforcement Learning Decisions of Self-Adaptive Systems	Oct 12, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Centralized Training with Hybrid Execution in Multi-Agent Reinforcement Learning	Oct 12, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	0
MARLlib: A Scalable and Efficient Multi-agent Reinforcement Learning Library	Oct 11, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	3
The Role of Exploration for Task Transfer in Reinforcement Learning	Oct 11, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
Exploration via Elliptical Episodic Bonuses	Oct 11, 2022	Reinforcement Learning (RL)	CodeCode Available	1
Discovered Policy Optimisation	Oct 11, 2022	IngenuityMeta-Learning	CodeCode Available	3
Edge-Cloud Cooperation for DNN Inference via Reinforcement Learning and Supervised Learning	Oct 11, 2022	image-classificationImage Classification	—Unverified	0
Broad-persistent Advice for Interactive Reinforcement Learning Scenarios	Oct 11, 2022	reinforcement-learningReinforcement Learning	—Unverified	0
DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical Reinforcement Learning	Oct 11, 2022	Hierarchical Reinforcement Learningreinforcement-learning	CodeCode Available	1
Reliable Conditioning of Behavioral Cloning for Offline Reinforcement Learning	Oct 11, 2022	Offline RLreinforcement-learning	CodeCode Available	1
Multi-User Reinforcement Learning with Low Rank Rewards	Oct 11, 2022	Collaborative Filteringreinforcement-learning	—Unverified	0
Mastering the Game of No-Press Diplomacy via Human-Regularized Reinforcement Learning and Planning	Oct 11, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	3

Show:10 25 50

← PrevPage 93 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified