Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 8226–8250 of 15113 papers

Title	Date	Tasks	Status
Finite-Time Convergence and Sample Complexity of Multi-Agent Actor-Critic Reinforcement Learning with Average Reward	Sep 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Benchmarking Sample Selection Strategies for Batch Reinforcement Learning	Sep 29, 2021	BenchmarkingImitation Learning	—Unverified
A General Theory of Relativity in Reinforcement Learning	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Can Reinforcement Learning Efficiently Find Stackelberg-Nash Equilibria in General-Sum Markov Games?	Sep 29, 2021	Reinforcement Learning (RL)	—Unverified
Evolutionary Diversity Optimization with Clustering-based Selection for Reinforcement Learning	Sep 29, 2021	Clusteringcontinuous-control	—Unverified
Evolution Strategies as an Alternate Learning method for Hierarchical Reinforcement Learning	Sep 29, 2021	Hierarchical Reinforcement LearningPolicy Gradient Methods	—Unverified
Data Sharing without Rewards in Multi-Task Offline Reinforcement Learning	Sep 29, 2021	Multi-Task LearningOffline RL	—Unverified
Learning to Solve Combinatorial Problems via Efficient Exploration	Sep 29, 2021	Efficient ExplorationReinforcement Learning (RL)	—Unverified
Conditional Value-at-Risk for Quantitative Trading: A Direct Reinforcement Learning Approach	Sep 29, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Decentralized Cooperative Multi-Agent Reinforcement Learning with Exploration	Sep 29, 2021	Multi-agent Reinforcement LearningQ-Learning	—Unverified
Effects of Conservatism on Offline Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
Learning When and What to Ask: a Hierarchical Reinforcement Learning Framework	Sep 29, 2021	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Experience Replay More When It's a Key Transition in Deep Reinforcement Learning	Sep 29, 2021	Deep Reinforcement LearningOpenAI Gym	—Unverified
Decentralized Cross-Entropy Method for Model-Based Reinforcement Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
CausalDyna: Improving Generalization of Dyna-style Reinforcement Learning via Counterfactual-Based Data Augmentation	Sep 29, 2021	counterfactualData Augmentation	—Unverified
A Two-Time-Scale Stochastic Optimization Framework with Applications in Control and Reinforcement Learning	Sep 29, 2021	Reinforcement Learning (RL)Stochastic Optimization	—Unverified
EAT-C: Environment-Adversarial sub-Task Curriculum for Efficient Reinforcement Learning	Sep 29, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
AARL: Automated Auxiliary Loss for Reinforcement Learning	Sep 29, 2021	reinforcement-learningReinforcement Learning	—Unverified
Graph-Enhanced Exploration for Goal-oriented Reinforcement Learning	Sep 29, 2021	continuous-controlContinuous Control	—Unverified
Hypothesis Driven Coordinate Ascent for Reinforcement Learning	Sep 29, 2021	MuJoCoOpenAI Gym	—Unverified
Decoupling Strategy and Surface Realization for Task-oriented Dialogues	Sep 29, 2021	Reinforcement Learning (RL)Style Transfer	—Unverified
IA-MARL: Imputation Assisted Multi-Agent Reinforcement Learning for Missing Training Data	Sep 29, 2021	ImputationMulti-agent Reinforcement Learning	—Unverified
Explanation-Aware Experience Replay in Rule-Dense Environments	Sep 29, 2021	Autonomous DrivingReinforcement Learning (RL)	CodeCode Available
Deep Ensemble Policy Learning	Sep 29, 2021	DiversityEnsemble Learning	—Unverified
Adversarial Style Transfer for Robust Policy Optimization in Reinforcement Learning	Sep 29, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 330 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified