Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 15113 papers

Title	Date	Tasks	Status	Hype
DRLComplex: Reconstruction of protein quaternary structures using deep reinforcement learning	May 26, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Scalable Multi-Agent Model-Based Reinforcement Learning	May 25, 2022	Mambamodel	CodeCode Available	1
Multimodal Knowledge Alignment with Reinforcement Learning	May 25, 2022	Audio captioningLanguage Modeling	CodeCode Available	1
Reward Uncertainty for Exploration in Preference-based Reinforcement Learning	May 24, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
History Compression via Language Models in Reinforcement Learning	May 24, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
When Data Geometry Meets Deep Function: Generalizing Offline Reinforcement Learning	May 23, 2022	D4RLOffline RL	CodeCode Available	1
Learning to branch with Tree MDPs	May 23, 2022	Reinforcement Learning (RL)	CodeCode Available	1
Memory-efficient Reinforcement Learning with Value-based Knowledge Consolidation	May 22, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
ARLO: A Framework for Automated Reinforcement Learning	May 20, 2022	feature selectionMuJoCo	CodeCode Available	1
Time Series Anomaly Detection via Reinforcement Learning-Based Model Selection	May 19, 2022	Anomaly DetectionModel Selection	CodeCode Available	1
Beyond Greedy Search: Tracking by Multi-Agent Reinforcement Learning-based Beam Search	May 19, 2022	Decision MakingImage Captioning	CodeCode Available	1
Deep Reinforcement Learning for Time Allocation and Directional Transmission in Joint Radar-Communication	May 19, 2022	Autonomous VehiclesDecision Making Under Uncertainty	CodeCode Available	1
A2C is a special case of PPO	May 18, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Efficient Unsupervised Sentence Compression by Fine-tuning Transformers with Reinforcement Learning	May 17, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
The Primacy Bias in Deep Reinforcement Learning	May 16, 2022	Atari Games 100kDeep Reinforcement Learning	CodeCode Available	1
Reachability Constrained Reinforcement Learning	May 16, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Deep Reinforcement Learning for Computational Fluid Dynamics on HPC Systems	May 13, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Intelligent Reflecting Surface Configurations for Smart Radio Using Deep Reinforcement Learning	May 11, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Efficient Risk-Averse Reinforcement Learning	May 10, 2022	Autonomous Drivingreinforcement-learning	CodeCode Available	1
VesNet-RL: Simulation-based Reinforcement Learning for Real-World US Probe Navigation	May 10, 2022	DiagnosticNavigate	CodeCode Available	1
Gamma and Vega Hedging Using Deep Distributional Reinforcement Learning	May 10, 2022	Distributional Reinforcement LearningPosition	CodeCode Available	1
State Encoders in Reinforcement Learning for Recommendation: A Reproducibility Study	May 10, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
Learning to Brachiate via Simplified Model Imitation	May 8, 2022	Humanoid Controlmodel	CodeCode Available	1
DxFormer: A Decoupled Automatic Diagnostic System Based on Decoder-Encoder Transformer with Dense Symptom Representations	May 8, 2022	DecoderDiagnostic	CodeCode Available	1
Multivariate Prediction Intervals for Random Forests	May 4, 2022	PredictionPrediction Intervals	CodeCode Available	1
CCLF: A Contrastive-Curiosity-Driven Learning Framework for Sample-Efficient Reinforcement Learning	May 2, 2022	Data AugmentationQ-Learning	CodeCode Available	1
Large Neighborhood Search based on Neural Construction Heuristics	May 2, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
TTOpt: A Maximum Volume Quantized Tensor Train-based Optimization and its Application to Reinforcement Learning	Apr 30, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Accelerating Robot Learning of Contact-Rich Manipulations: A Curriculum Learning Study	Apr 27, 2022	Contact-rich ManipulationReinforcement Learning (RL)	CodeCode Available	1
RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning	Apr 26, 2022	Offline RLreinforcement-learning	CodeCode Available	1
Multi-Agent Reinforcement Learning for Traffic Signal Control through Universal Communication Method	Apr 26, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
HyperNCA: Growing Developmental Networks with Neural Cellular Automata	Apr 25, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Reward Reports for Reinforcement Learning	Apr 22, 2022	Chatbotreinforcement-learning	CodeCode Available	1
6GAN: IPv6 Multi-Pattern Target Generation via Generative Adversarial Nets with Reinforcement Learning	Apr 21, 2022	Decision Makingreinforcement-learning	CodeCode Available	1
A Reinforcement Learning-based Volt-VAR Control Dataset and Testing Environment	Apr 20, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
Comparing Deep Reinforcement Learning Algorithms in Two-Echelon Supply Chains	Apr 20, 2022	Decision MakingDeep Reinforcement Learning	CodeCode Available	1
COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation	Apr 19, 2022	Offline RLOff-policy evaluation	CodeCode Available	1
FedKL: Tackling Data Heterogeneity in Federated Reinforcement Learning by Penalizing KL Divergence	Apr 18, 2022	Federated Learningreinforcement-learning	CodeCode Available	1
Can Question Rewriting Help Conversational Question Answering?	Apr 13, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1
Reinforcement learning on graphs: A survey	Apr 13, 2022	Graph Miningreinforcement-learning	CodeCode Available	1
Confidence Estimation Transformer for Long-term Renewable Energy Forecasting in Reinforcement Learning-based Power Grid Dispatching	Apr 10, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Grounding Hindsight Instructions in Multi-Goal Reinforcement Learning for Robotics	Apr 8, 2022	Multi-Goal Reinforcement Learningreinforcement-learning	CodeCode Available	1
Offline Reinforcement Learning for Safer Blood Glucose Control in People with Type 1 Diabetes	Apr 7, 2022	Offline RLReinforcement Learning (RL)	CodeCode Available	1
Federated Reinforcement Learning with Environment Heterogeneity	Apr 6, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Multi-Agent Distributed Reinforcement Learning for Making Decentralized Offloading Decisions	Apr 5, 2022	Decision MakingFairness	CodeCode Available	1
Jump-Start Reinforcement Learning	Apr 5, 2022	reinforcement-learningReinforcement Learning	CodeCode Available	1
Inferring Rewards from Language in Context	Apr 5, 2022	Instruction FollowingReinforcement Learning (RL)	CodeCode Available	1
Value Gradient weighted Model-Based Reinforcement Learning	Apr 4, 2022	modelModel-based Reinforcement Learning	CodeCode Available	1
Adaptive Risk-Tendency: Nano Drone Navigation in Cluttered Environments with Distributional Reinforcement Learning	Mar 28, 2022	Distributional Reinforcement LearningDrone navigation	CodeCode Available	1
Reinforcement Learning with Action-Free Pre-Training from Videos	Mar 25, 2022	Predictionreinforcement-learning	CodeCode Available	1

Show:10 25 50

← PrevPage 23 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified