Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3626–3650 of 15113 papers

Title	Date	Tasks	Status	Score
Alpha-Mini: Minichess Agent with Deep Reinforcement Learning	Dec 22, 2021	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Deep reinforcement learning for feedback control in a collective flashing ratchet	Nov 20, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Active Collection of Well-Being and Health Data in Mobile Devices	Jul 7, 2023	Q-LearningReinforcement Learning (RL)	CodeCode Available	5
Generative Question Refinement with Deep Reinforcement Learning in Retrieval-based QA System	Aug 13, 2019	Deep Reinforcement LearningQuestion Answering	CodeCode Available	5
Q-Mixing Network for Multi-Agent Pathfinding in Partially Observable Grid Environments	Aug 13, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
Collaborative Deep Reinforcement Learning	Feb 19, 2017	Deep Reinforcement LearningKnowledge Distillation	CodeCode Available	5
Deep Reinforcement Learning for General Video Game AI	Jun 6, 2018	Atari GamesBenchmarking	CodeCode Available	5
A2PO: Towards Effective Offline Reinforcement Learning from an Advantage-aware Perspective	Mar 12, 2024	D4RLreinforcement-learning	CodeCode Available	5
Generative Adversarial Network for Abstractive Text Summarization	Nov 26, 2017	Abstractive Text SummarizationGenerative Adversarial Network	CodeCode Available	5
Generic Itemset Mining Based on Reinforcement Learning	May 17, 2021	reinforcement-learningReinforcement Learning	CodeCode Available	5
Cold-Start Reinforcement Learning with Softmax Policy Gradient	Sep 27, 2017	Image CaptioningPolicy Gradient Methods	CodeCode Available	5
Quantum Deep Reinforcement Learning for Robot Navigation Tasks	Feb 24, 2022	BIG-bench Machine LearningDeep Reinforcement Learning	CodeCode Available	5
Generating Classical Chinese Poems from Vernacular Chinese	Aug 31, 2019	Cultural Vocal Bursts Intensity PredictionMachine Translation	CodeCode Available	5
General policy mapping: online continual reinforcement learning inspired on the insect brain	Nov 30, 2022	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	5
Generalized Population-Based Training for Hyperparameter Optimization in Reinforcement Learning	Apr 12, 2024	Computational EfficiencyHyperparameter Optimization	CodeCode Available	5
Deep Reinforcement Learning for Industrial Insertion Tasks with Visual Inputs and Natural Rewards	Jun 13, 2019	Deep Reinforcement LearningFriction	CodeCode Available	5
Queueing Network Controls via Deep Reinforcement Learning	Jul 31, 2020	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	5
Generalized Speedy Q-learning	Nov 1, 2019	Q-LearningReinforcement Learning	CodeCode Available	5
General Policy Evaluation and Improvement by Learning to Identify Few But Crucial States	Jul 4, 2022	continuous-controlContinuous Control	CodeCode Available	5
Generalized Adaptive Transfer Network: Enhancing Transfer Learning in Reinforcement Learning Across Domains	Jul 2, 2025	Atari GamesChatbot	CodeCode Available	5
Approximate Model-Based Shielding for Safe Reinforcement Learning	Jul 27, 2023	Atari Gamesmodel	CodeCode Available	5
Generalization Tower Network: A Novel Deep Neural Network Architecture for Multi-Task Learning	Oct 27, 2017	Atari GamesMulti-Task Learning	CodeCode Available	5
Approximately Optimal Search on a Higher-dimensional Sliding Puzzle	Dec 2, 2024	Reinforcement Learning (RL)	CodeCode Available	5
Generalization through Simulation: Integrating Simulated and Real Data into Deep Reinforcement Learning for Vision-Based Autonomous Flight	Feb 11, 2019	Collision AvoidanceDeep Reinforcement Learning	CodeCode Available	5
CODEX: A Cluster-Based Method for Explainable Reinforcement Learning	Dec 7, 2023	Clusteringcounterfactual	CodeCode Available	5

Show:10 25 50

← PrevPage 146 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified