Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3476–3500 of 15113 papers

Title	Date	Tasks	Status
Automata-Guided Hierarchical Reinforcement Learning for Skill Composition	Oct 31, 2017	Deep Reinforcement LearningHierarchical Reinforcement Learning	—Unverified
Deep Q-Learning for Directed Acyclic Graph Generation	Jun 5, 2019	Deep Reinforcement LearningGraph Generation	—Unverified
AUTOMATA GUIDED HIERARCHICAL REINFORCEMENT LEARNING FOR ZERO-SHOT SKILL COMPOSITION	Jan 1, 2018	Deep Reinforcement LearningHierarchical Reinforcement Learning	—Unverified
Counterfactual Explanation Policies in RL	Jul 25, 2023	counterfactualCounterfactual Explanation	—Unverified
Automata Guided Reinforcement Learning With Demonstrations	Sep 17, 2018	reinforcement-learningReinforcement Learning	—Unverified
Deep Q-Learning Market Makers in a Multi-Agent Simulated Stock Market	Dec 8, 2021	Q-LearningReinforcement Learning (RL)	—Unverified
Deep Q-Learning versus Proximal Policy Optimization: Performance Comparison in a Material Sorting Task	Jun 2, 2023	Deep Reinforcement LearningQ-Learning	—Unverified
Deep Q-Learning with Q-Matrix Transfer Learning for Novel Fire Evacuation Environment	May 23, 2019	OpenAI GymQ-Learning	—Unverified
Deep Q-Network Based Multi-agent Reinforcement Learning with Binary Action Agents	Aug 6, 2020	Multi-agent Reinforcement LearningOpenAI Gym	—Unverified
Deep Q-Network (DQN) multi-agent reinforcement learning (MARL) for Stock Trading	May 6, 2025	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified
Deep Q-Network for AI Soccer	Sep 20, 2022	Atari Gamesreinforcement-learning	—Unverified
A Strong Baseline for Batch Imitation Learning	Feb 6, 2023	continuous-controlContinuous Control	—Unverified
Counterfactual Credit Assignment in Model-Free Reinforcement Learning	Nov 18, 2020	counterfactualmodel	—Unverified
A physics-informed reinforcement learning approach for the interfacial area transport in two-phase flow	Aug 6, 2019	reinforcement-learningReinforcement Learning	—Unverified
Agent based modelling for continuously varying supply chains	Dec 24, 2023	reinforcement-learningReinforcement Learning	—Unverified
Automated Database Indexing using Model-free Reinforcement Learning	Jul 25, 2020	reinforcement-learningReinforcement Learning	—Unverified
DeepRacer: Educational Autonomous Racing Platform for Experimentation with Sim2Real Reinforcement Learning	Nov 5, 2019	Autonomous RacingDeep Reinforcement Learning	—Unverified
Deep Randomized Least Squares Value Iteration	Jan 1, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
Deep Radial-Basis Value Functions for Continuous Control	Feb 5, 2020	continuous-controlContinuous Control	—Unverified
Accelerating the Computation of UCB and Related Indices for Reinforcement Learning	Sep 28, 2019	reinforcement-learningReinforcement Learning	—Unverified
Deep reinforced active learning for multi-class image classification	Jun 20, 2022	Active LearningClassification	—Unverified
Deep Reinforced Self-Attention Masks for Abstractive Summarization (DR.SAS)	Dec 30, 2019	Abstractive Text SummarizationReinforcement Learning	—Unverified
Deep Reinforcement Active Learning for Human-in-the-Loop Person Re-Identification	Oct 1, 2019	Active LearningDeep Reinforcement Learning	—Unverified
Deep Reinforcement Fuzzing	Jan 14, 2018	Q-Learningreinforcement-learning	—Unverified
Deep RL With Information Constrained Policies: Generalization in Continuous Control	Oct 9, 2020	continuous-controlContinuous Control	—Unverified

Show:10 25 50

← PrevPage 140 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified