Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8151–8175 of 15113 papers

Title	Date	Tasks	Status
You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL	Oct 5, 2021	D4RLOffline RL	—Unverified
NaRLE: Natural Language Models using Reinforcement Learning with Emotion Feedback	Oct 5, 2021	Deep Reinforcement Learningintent-classification	—Unverified
Mining for Potent Inhibitors through Artificial Intelligence and Physics: A Unified Methodology for Ligand Based and Structure Based Drug Design	Oct 5, 2021	Deep Reinforcement LearningDrug Design	—Unverified
Reinforcement Learning for Admission Control in Wireless Virtual Network Embedding	Oct 4, 2021	Deep Reinforcement LearningNetwork Embedding	—Unverified
Multi-Agent Path Planning Using Deep Reinforcement Learning	Oct 4, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
Learning to Assist Agents by Observing Them	Oct 4, 2021	AI Agentreinforcement-learning	—Unverified
Automating Privilege Escalation with Deep Reinforcement Learning	Oct 4, 2021	BIG-bench Machine LearningDeep Reinforcement Learning	—Unverified
A Modified Q-Learning Algorithm for Rate-Profiling of Polarization Adjusted Convolutional (PAC) Codes	Oct 4, 2021	Q-Learningreinforcement-learning	—Unverified
Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation	Oct 4, 2021	Drug DesignMolecular Docking	—Unverified
Behaviour-conditioned policies for cooperative reinforcement learning tasks	Oct 4, 2021	Deep Reinforcement LearningMeta-Learning	—Unverified
Decentralized Safe Reinforcement Learning for Voltage Control	Oct 3, 2021	reinforcement-learningReinforcement Learning	—Unverified
A Novel Automated Curriculum Strategy to Solve Hard Sokoban Planning Instances	Oct 3, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
DRL-Clusters: Buffer Management with Clustering based Deep Reinforcement Learning	Oct 3, 2021	ClusteringDeep Reinforcement Learning	—Unverified
Parallel Actors and Learners: A Framework for Generating Scalable RL Implementations	Oct 3, 2021	CPUGPU	—Unverified
Meta-Reinforcement Learning via Buffering Graph Signatures for Live Video Streaming Events	Oct 3, 2021	Meta-LearningMeta Reinforcement Learning	CodeCode Available
Mapping Language to Programs using Multiple Reward Components with Inverse Reinforcement Learning	Oct 2, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Seeking Visual Discomfort: Curiosity-driven Representations for Reinforcement Learning	Oct 2, 2021	Diversityreinforcement-learning	—Unverified
Feel-Good Thompson Sampling for Contextual Bandits and Reinforcement Learning	Oct 2, 2021	Multi-Armed Banditsregression	—Unverified
BRAC+: Improved Behavior Regularized Actor Critic for Offline Reinforcement Learning	Oct 2, 2021	Offline RLreinforcement-learning	CodeCode Available
DNN-Opt: An RL Inspired Optimization for Analog Circuit Sizing using Deep Neural Networks	Oct 1, 2021	Reinforcement Learning (RL)	—Unverified
Guiding Evolutionary Strategies by Differentiable Robot Simulators	Oct 1, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
A Cramér Distance perspective on Quantile Regression based Distributional Reinforcement Learning	Oct 1, 2021	Distributional Reinforcement Learningquantile regression	CodeCode Available
Cellular traffic offloading via Opportunistic Networking with Reinforcement Learning	Oct 1, 2021	Q-Learningreinforcement-learning	—Unverified
Divergence-Regularized Multi-Agent Actor-Critic	Oct 1, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Terminal Adaptive Guidance for Autonomous Hypersonic Strike Weapons via Reinforcement Learning	Oct 1, 2021	Meta-Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 327 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified