Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5826–5850 of 15113 papers

Title	Date	Tasks	Status
Seeking Visual Discomfort: Curiosity-driven Representations for Reinforcement Learning	Oct 2, 2021	Diversityreinforcement-learning	—Unverified
SeekNet: Improved Human Instance Segmentation and Tracking via Reinforcement Learning Based Optimized Robot Relocation	Nov 17, 2020	Human DetectionHuman Instance Segmentation	—Unverified
SEERL: Sample Efficient Ensemble Reinforcement Learning	Jan 15, 2020	continuous-controlContinuous Control	—Unverified
Segmenting Action-Value Functions Over Time-Scales in SARSA via TD(Δ)	Nov 22, 2024	Reinforcement Learning (RL)	—Unverified
Segregation Dynamics with Reinforcement Learning and Agent Based Modeling	Sep 18, 2019	reinforcement-learningReinforcement Learning	—Unverified
SEIHAI: A Sample-efficient Hierarchical AI for the MineRL Competition	Nov 17, 2021	Imitation Learningreinforcement-learning	—Unverified
Select before Act: Spatially Decoupled Action Repetition for Continuous Control	Feb 10, 2025	continuous-controlContinuous Control	—Unverified
Selecting Mechanical Parameters of a Monopode Jumping System with Reinforcement Learning	Dec 2, 2022	Navigatereinforcement-learning	—Unverified
Selecting Near-Optimal Approximate State Representations in Reinforcement Learning	May 12, 2014	reinforcement-learningReinforcement Learning	—Unverified
Selecting the State-Representation in Reinforcement Learning	Dec 1, 2011	reinforcement-learningReinforcement Learning	—Unverified
Selective Credit Assignment	Feb 20, 2022	Predictionreinforcement-learning	—Unverified
Selective Experience Sharing in Reinforcement Learning Enhances Interference Management	Jan 27, 2025	ManagementMulti-agent Reinforcement Learning	—Unverified
Selective Particle Attention: Visual Feature-Based Attention in Deep Reinforcement Learning	Aug 26, 2020	Deep Reinforcement LearningMultiple-choice	—Unverified
Selective Pseudo-Labeling with Reinforcement Learning for Semi-Supervised Domain Adaptation	Dec 7, 2020	Domain AdaptationQ-Learning	—Unverified
Selective Reviews of Bandit Problems in AI via a Statistical View	Dec 3, 2024	Decision MakingDecision Making Under Uncertainty	—Unverified
Selective Token Generation for Few-shot Language Modeling	Sep 29, 2021	Data-to-Text GenerationLanguage Modeling	—Unverified
Selective Transfer with Reinforced Transfer Network for Partial Domain Adaptation	May 26, 2019	Domain AdaptationPartial Domain Adaptation	—Unverified
Selective Uncertainty Propagation in Offline RL	Feb 1, 2023	Offline RLreinforcement-learning	—Unverified
Selector-Enhancer: Learning Dynamic Selection of Local and Non-local Attention Operation for Speech Enhancement	Dec 7, 2022	DenoisingReinforcement Learning (RL)	—Unverified
Self-Adapting Goals Allow Transfer of Predictive Models to New Tasks	Apr 4, 2019	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Self-Awareness Safety of Deep Reinforcement Learning in Road Traffic Junction Driving	Jan 20, 2022	Autonomous DrivingDeep Reinforcement Learning	—Unverified
Self-Confirming Transformer for Belief-Conditioned Adaptation in Offline Multi-Agent Reinforcement Learning	Oct 6, 2023	Multi-agent Reinforcement LearningOffline RL	—Unverified
Self-Consistent Models and Values	Oct 25, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Self-Consistent Trajectory Autoencoder: Hierarchical Reinforcement Learning with Trajectory Embeddings	Jun 7, 2018	Hierarchical Reinforcement Learningreinforcement-learning	—Unverified
Self-Critical Alternate Learning based Semantic Broadcast Communication	Dec 3, 2023	Reinforcement Learning (RL)Semantic Communication	—Unverified

Show:10 25 50

← PrevPage 234 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified