Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1651–1675 of 15113 papers

Title	Date	Tasks	Status	Hype
AI2-THOR: An Interactive 3D Environment for Visual AI	Dec 14, 2017	Deep Reinforcement LearningImitation Learning	CodeCode Available	1
Multi-Agent Reinforcement Learning for Traffic Signal Control through Universal Communication Method	Apr 26, 2022	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
Combining Reinforcement Learning with Lin-Kernighan-Helsgaun Algorithm for the Traveling Salesman Problem	Dec 8, 2020	Combinatorial OptimizationQ-Learning	CodeCode Available	1
Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence	Feb 7, 2023	Continuous ControlMuJoCo	CodeCode Available	1
An Empirical Study of Representation Learning for Reinforcement Learning in Healthcare	Nov 23, 2020	Open-Ended Question Answeringreinforcement-learning	CodeCode Available	1
Attacking Video Recognition Models with Bullet-Screen Comments	Oct 29, 2021	Adversarial AttackAdversarial Attack on Video Classification	CodeCode Available	1
Collision Probability Distribution Estimation via Temporal Difference Learning	Jul 29, 2024	AI AgentAutonomous Driving	CodeCode Available	1
Multi-Agent Reinforcement Learning of 3D Furniture Layout Simulation in Indoor Graphics Scenes	Feb 18, 2021	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
Attention Actor-Critic algorithm for Multi-Agent Constrained Co-operative Reinforcement Learning	Jan 7, 2021	reinforcement-learningReinforcement Learning (RL)	CodeCode Available	1
Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning	Oct 25, 2022	D4RLOffline RL	CodeCode Available	1
Multi-Agent Trust Region Learning	Jan 1, 2021	Atari GamesMuJoCo	CodeCode Available	1
Multi-Decoder Attention Model with Embedding Glimpse for Solving Vehicle Routing Problems	Dec 19, 2020	DecoderDeep Reinforcement Learning	CodeCode Available	1
Combinatorial Optimization by Graph Pointer Networks and Hierarchical Reinforcement Learning	Nov 12, 2019	Combinatorial OptimizationGraph Embedding	CodeCode Available	1
An empirical investigation of the challenges of real-world reinforcement learning	Mar 24, 2020	continuous-controlContinuous Control	CodeCode Available	1
AI-Driven Day-to-Day Route Choice	Dec 4, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning	May 24, 2023	Offline RLReinforcement Learning (RL)	CodeCode Available	1
Multi-task curriculum learning in a complex, visual, hard-exploration domain: Minecraft	Jun 28, 2021	Minecraftreinforcement-learning	CodeCode Available	1
Knowledge Transfer in Multi-Task Deep Reinforcement Learning for Continuous Control	Oct 15, 2020	continuous-controlContinuous Control	CodeCode Available	1
Learning Robust State Abstractions for Hidden-Parameter Block MDPs	Jul 14, 2020	Generalization BoundsMeta Reinforcement Learning	CodeCode Available	1
Multi-Task Reinforcement Learning with Context-based Representations	Feb 11, 2021	Multi-Task Learningreinforcement-learning	CodeCode Available	1
Collective eXplainable AI: Explaining Cooperative Strategies and Agent Contribution in Multiagent Reinforcement Learning with Shapley Values	Oct 4, 2021	Decision MakingDeep Reinforcement Learning	CodeCode Available	1
Multivariate Prediction Intervals for Random Forests	May 4, 2022	PredictionPrediction Intervals	CodeCode Available	1
Munchausen Reinforcement Learning	Jul 28, 2020	Atari Gamesreinforcement-learning	CodeCode Available	1
MUSEG: Reinforcing Video Temporal Understanding via Timestamp-Aware Multi-Segment Grounding	May 27, 2025	Reinforcement Learning (RL)Video Understanding	CodeCode Available	1
Combinatorial Optimization with Policy Adaptation using Latent Space Search	Nov 13, 2023	BenchmarkingCombinatorial Optimization	CodeCode Available	1

Show:10 25 50

← PrevPage 67 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified