Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 5876–5900 of 15113 papers

Title	Date	Tasks	Status
Self-supervised reinforcement learning for speaker localisation with the iCub humanoid robot	Nov 12, 2020	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	—Unverified
Self-supervised Reinforcement Learning with Independently Controllable Subgoals	Sep 9, 2021	reinforcement-learningReinforcement Learning	—Unverified
Self-supervised Sequential Information Bottleneck for Robust Exploration in Deep Reinforcement Learning	Sep 12, 2022	Deep Reinforcement LearningEfficient Exploration	—Unverified
Self-Supervised Sim-to-Real Adaptation for Visual Robotic Manipulation	Oct 21, 2019	Deep Reinforcement LearningDomain Adaptation	—Unverified
Self-Supervised Structured Representations for Deep Reinforcement Learning	Sep 29, 2021	Atari GamesDeep Reinforcement Learning	—Unverified
Self-timed Reinforcement Learning using Tsetlin Machine	Sep 2, 2021	reinforcement-learningReinforcement Learning	—Unverified
Self Training Autonomous Driving Agent	Apr 26, 2019	Autonomous Drivingreinforcement-learning	—Unverified
A Self-Tuning Actor-Critic Algorithm	Feb 28, 2020	Atari Gamesreinforcement-learning	—Unverified
Self-Tuning Sectorization: Deep Reinforcement Learning Meets Broadcast Beam Optimization	Jun 14, 2019	Deep Reinforcement Learningreinforcement-learning	—Unverified
Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless Cellular Networks	Nov 23, 2021	Decision MakingDeep Reinforcement Learning	—Unverified
Semantic-Aware Remote Estimation of Multiple Markov Sources Under Constraints	Mar 25, 2024	Q-LearningReinforcement Learning (RL)	—Unverified
Semantic Exploration from Language Abstractions and Pretrained Representations	Apr 8, 2022	Image CaptioningReinforcement Learning (RL)	—Unverified
Semantic Guidance of Dialogue Generation with Reinforcement Learning	Jul 1, 2020	DecoderDialogue Generation	—Unverified
Semantic Tracklets: An Object-Centric Representation for Visual Multi-Agent Reinforcement Learning	Aug 6, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Semi-analytical Industrial Cooling System Model for Reinforcement Learning	Jul 26, 2022	reinforcement-learningReinforcement Learning	—Unverified
Taming Multi-Agent Reinforcement Learning with Estimator Variance Reduction	Sep 2, 2022	MuJoCoMulti-agent Reinforcement Learning	—Unverified
Semi-Data-Aided Channel Estimation for MIMO Systems via Reinforcement Learning	Apr 3, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Semi-On-Policy Training for Sample Efficient Multi-Agent Policy Gradients	Apr 27, 2021	Multi-agent Reinforcement LearningPolicy Gradient Methods	—Unverified
Semi-pessimistic Reinforcement Learning	May 25, 2025	reinforcement-learningReinforcement Learning	—Unverified
Semi-supervised Offline Reinforcement Learning with Pre-trained Decision Transformers	Sep 29, 2021	D4RLOffline RL	—Unverified
Semi-Supervised Off Policy Reinforcement Learning	Dec 9, 2020	ImputationQ-Learning	—Unverified
Semi-Supervised QA with Generative Domain-Adaptive Nets	Feb 7, 2017	Domain AdaptationQuestion Answering	—Unverified
Semi-supervised reward learning for offline reinforcement learning	Dec 12, 2020	Behavioural cloningreinforcement-learning	—Unverified
SeMOPO: Learning High-quality Model and Policy from Low-quality Offline Visual Datasets	Jun 13, 2024	D4RLOffline RL	—Unverified
Sensor Control for Information Gain in Dynamic, Sparse and Partially Observed Environments	Nov 3, 2022	Reinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 236 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified