Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 14801–14850 of 15113 papers

Title	Date	Tasks	Status
Is Vanilla Policy Gradient Overlooked? Analyzing Deep Reinforcement Learning for Hanabi	Mar 22, 2022	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
Benchmarking Reinforcement Learning Algorithms on Real-World Robots	Sep 20, 2018	Benchmarkingcontinuous-control	CodeCode Available
Gradual Transition from Bellman Optimality Operator to Bellman Operator in Online Reinforcement Learning	Jun 6, 2025	Reinforcement Learning (RL)	CodeCode Available
Learn to Steer through Deep Reinforcement Learning	Oct 27, 2018	Deep Reinforcement Learningreinforcement-learning	CodeCode Available
An Efficient Application of Neuroevolution for Competitive Multiagent Learning	May 23, 2021	reinforcement-learningReinforcement Learning	CodeCode Available
Grammars and reinforcement learning for molecule optimization	Nov 27, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Improving Policy Learning via Language Dynamics Distillation	Sep 30, 2022	NetHackReinforcement Learning (RL)	CodeCode Available
Correcting Momentum in Temporal Difference Learning	Jun 7, 2021	Deep Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Corpus-Level End-to-End Exploration for Interactive Systems	Nov 23, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
Improving Policy Optimization with Generalist-Specialist Learning	Jun 26, 2022	Deep Reinforcement LearningImitation Learning	CodeCode Available
CO-PILOT: COllaborative Planning and reInforcement Learning On sub-Task curriculum	Dec 1, 2021	continuous-controlContinuous Control	CodeCode Available
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available
Improving Post-Processing of Audio Event Detectors Using Reinforcement Learning	Aug 19, 2022	Classificationreinforcement-learning	CodeCode Available
COPA: Certifying Robust Policies for Offline Reinforcement Learning against Poisoning Attacks	Mar 16, 2022	Offline RLreinforcement-learning	CodeCode Available
Cooperative multi-agent reinforcement learning for high-dimensional nonequilibrium control	Nov 12, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
Graph Backup: Data Efficient Backup Exploiting Markovian Transitions	May 31, 2022	Atari Gamescounterfactual	CodeCode Available
Environment Design for Inverse Reinforcement Learning	Oct 26, 2022	reinforcement-learningReinforcement Learning	CodeCode Available
Improving reinforcement learning algorithms: towards optimal learning rate policies	Nov 6, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Improving Reinforcement Learning Based Image Captioning with Natural Language Prior	Sep 13, 2018	Image Captioningreinforcement-learning	CodeCode Available
Environment Probing Interaction Policies	Jul 26, 2019	Reinforcement LearningReinforcement Learning (RL)	CodeCode Available
RH-Net: Improving Neural Relation Extraction via Reinforcement Learning and Hierarchical Relational Searching	Oct 27, 2020	Denoisingreinforcement-learning	CodeCode Available
Environments for Lifelong Reinforcement Learning	Nov 26, 2018	reinforcement-learningReinforcement Learning	CodeCode Available
Benchmarking Quantum Reinforcement Learning	Jan 27, 2025	Benchmarkingreinforcement-learning	CodeCode Available
Benchmarking MOEAs for solving continuous multi-objective RL problems	May 19, 2025	BenchmarkingEvolutionary Algorithms	CodeCode Available
Cooperative Inverse Reinforcement Learning	Jun 9, 2016	Active Learningreinforcement-learning	CodeCode Available
Improving Generalization in Reinforcement Learning Training Regimes for Social Robot Navigation	Aug 29, 2023	Decision MakingNavigate	CodeCode Available
Cooperation-Aware Reinforcement Learning for Merging in Dense Traffic	Jun 26, 2019	Autonomous VehiclesDecision Making	CodeCode Available
Graph Convolutional Reinforcement Learning	Oct 22, 2018	Decision Makingreinforcement-learning	CodeCode Available
Learning Task-relevant Representations for Generalization via Characteristic Functions of Reward Sequence Distributions	May 20, 2022	Reinforcement Learning (RL)	CodeCode Available
Benchmarking Model-Based Reinforcement Learning	Jul 3, 2019	Benchmarkingmodel	CodeCode Available
Benchmark Generation Framework with Customizable Distortions for Image Classifier Robustness	Oct 28, 2023	Benchmarkingimage-classification	CodeCode Available
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback	Jun 25, 2024	Reinforcement Learning (RL)Sentence	CodeCode Available
Convolutional Reservoir Computing for World Models	Jul 18, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
A framework for reinforcement learning with autocorrelated actions	Sep 10, 2020	reinforcement-learningReinforcement Learning	CodeCode Available
Learning to reinforcement learn	Nov 17, 2016	Deep Reinforcement LearningMeta-Learning	CodeCode Available
Bellman Meets Hawkes: Model-Based Reinforcement Learning via Temporal Point Processes	Jan 29, 2022	Decision MakingModel-based Reinforcement Learning	CodeCode Available
GraphNAS: Graph Neural Architecture Search with Reinforcement Learning	Apr 22, 2019	General ClassificationInductive Learning	CodeCode Available
Improving Robustness of Deep Reinforcement Learning Agents: Environment Attack based on the Critic Network	Apr 7, 2021	Adversarial AttackDeep Reinforcement Learning	CodeCode Available
Learning Fair Policies in Multiobjective (Deep) Reinforcement Learning with Average and Discounted Rewards	Aug 18, 2020	Deep Reinforcement LearningFairness	CodeCode Available
Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations	Mar 6, 2024	Q-LearningReinforcement Learning (RL)	CodeCode Available
Behaviour Suite for Reinforcement Learning	Aug 9, 2019	reinforcement-learningReinforcement Learning	CodeCode Available
Quantum enhancements for deep reinforcement learning in large spaces	Oct 28, 2019	BIG-bench Machine LearningDecision Making	CodeCode Available
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM	May 16, 2025	Language ModelingLanguage Modelling	CodeCode Available
Behavior Prior Representation learning for Offline Reinforcement Learning	Nov 2, 2022	Offline RLreinforcement-learning	CodeCode Available
Convergent Policy Optimization for Safe Reinforcement Learning	Oct 26, 2019	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available
A Framework for Automated Cellular Network Tuning with Reinforcement Learning	Aug 13, 2018	ManagementQ-Learning	CodeCode Available
Iterative Reward Shaping using Human Feedback for Correcting Reward Misspecification	Aug 30, 2023	Reinforcement Learning (RL)	CodeCode Available
A nearly Blackwell-optimal policy gradient method	May 28, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Arena: a toolkit for Multi-Agent Reinforcement Learning	Jul 20, 2019	Multi-agent Reinforcement LearningOpenAI Gym	CodeCode Available
Control with adaptive Q-learning	Nov 3, 2020	OpenAI GymQ-Learning	CodeCode Available

Show:10 25 50

← PrevPage 297 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified