Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6176–6200 of 15113 papers

Title	Date	Tasks	Status
StarCraft II Build Order Optimization using Deep Reinforcement Learning and Monte-Carlo Tree Search	Jun 12, 2020	Deep Reinforcement Learningreinforcement-learning	—Unverified
StarCraftImage: A Dataset For Prototyping Spatial Reasoning Methods For Multi-Agent Environments	Jan 9, 2024	ImputationReinforcement Learning (RL)	—Unverified
State2vec: Off-Policy Successor Features Approximators	Oct 22, 2019	Meta Reinforcement Learningreinforcement-learning	—Unverified
State Abstractions for Lifelong Reinforcement Learning	Jul 1, 2018	reinforcement-learningReinforcement Learning	—Unverified
State-Action Joint Regularized Implicit Policy for Offline Reinforcement Learning	Sep 29, 2021	D4RLreinforcement-learning	—Unverified
State Action Separable Reinforcement Learning	Jun 5, 2020	Decision Makingreinforcement-learning	—Unverified
State Advantage Weighting for Offline RL	Oct 9, 2022	D4RLOffline RL	—Unverified
State Alignment-based Imitation Learning	Nov 21, 2019	Imitation Learningreinforcement-learning	—Unverified
State and Action Factorization in Power Grids	Sep 3, 2024	reinforcement-learningReinforcement Learning	—Unverified
State-Augmentation Transformations for Risk-Sensitive Reinforcement Learning	Apr 16, 2018	Q-Learningreinforcement-learning	—Unverified
State Augmented Constrained Reinforcement Learning: Overcoming the Limitations of Learning with Rewards	Feb 23, 2021	reinforcement-learningReinforcement Learning	—Unverified
State-Aware Proximal Pessimistic Algorithms for Offline Reinforcement Learning	Nov 28, 2022	Offline RLQ-Learning	—Unverified
State-based Episodic Memory for Multi-Agent Reinforcement Learning	Oct 19, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
State Combinatorial Generalization In Decision Making With Conditional Diffusion Models	Jan 22, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
State Dropout-Based Curriculum Reinforcement Learning for Self-Driving at Unsignalized Intersections	Jul 10, 2022	Autonomous DrivingAutonomous Vehicles	—Unverified
State of the Art of Reinforcement Learning	Jan 17, 2022	reinforcement-learningReinforcement Learning	—Unverified
State of the Art of User Simulation approaches for conversational information retrieval	Jan 10, 2022	Decision MakingInformation Retrieval	—Unverified
State Regularized Policy Optimization on Data with Dynamics Shift	Jun 6, 2023	Offline RLReinforcement Learning (RL)	—Unverified
State Representation Learning for Goal-Conditioned Reinforcement Learning	May 4, 2022	reinforcement-learningReinforcement Learning	—Unverified
State Representation Learning from Demonstration	Sep 15, 2019	Imitation LearningReinforcement Learning	—Unverified
State representation learning with recurrent capsule networks	Dec 28, 2018	reinforcement-learningReinforcement Learning	—Unverified
State-Separated SARSA: A Practical Sequential Decision-Making Algorithm with Recovering Rewards	Mar 18, 2024	Decision MakingQ-Learning	—Unverified
State Space Decomposition and Subgoal Creation for Transfer in Deep Reinforcement Learning	May 24, 2017	Deep Reinforcement Learningreinforcement-learning	—Unverified
State-wise Safe Reinforcement Learning: A Survey	Feb 6, 2023	Autonomous Drivingreinforcement-learning	—Unverified
Static Neural Compiler Optimization via Deep Reinforcement Learning	Aug 20, 2020	Compiler OptimizationDeep Reinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 248 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified