Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9376–9400 of 15113 papers

Title	Date	Tasks	Status
RADARS: Memory Efficient Reinforcement Learning Aided Differentiable Neural Architecture Search	Sep 13, 2021	GPUNeural Architecture Search	—Unverified
Radiology Report Generation via Multi-objective Preference Optimization	Dec 12, 2024	Multi-Objective Reinforcement LearningReinforcement Learning (RL)	—Unverified
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning	Feb 18, 2025	3DGSAutonomous Driving	—Unverified
RAIDER: Reinforcement-aided Spear Phishing Detector	May 17, 2021	Binary Classificationreinforcement-learning	—Unverified
Raijū: Reinforcement Learning-Guided Post-Exploitation for Automating Security Assessment of Network Systems	Sep 27, 2023	Reinforcement Learning (RL)	—Unverified
RAIL: A modular framework for Reinforcement-learning-based Adversarial Imitation Learning	May 8, 2021	Imitation LearningOpenAI Gym	—Unverified
Railway Operation Rescheduling System via Dynamic Simulation and Reinforcement Learning	Jan 17, 2022	reinforcement-learningReinforcement Learning	—Unverified
Raising Student Completion Rates with Adaptive Curriculum and Contextual Bandits	Jul 28, 2022	Model-based Reinforcement LearningMulti-Armed Bandits	—Unverified
Random Copolymer inverse design system orienting on Accurate discovering of Antimicrobial peptide-mimetic copolymers	Nov 30, 2022	Activity PredictionKnowledge Distillation	—Unverified
Random Ensemble Reinforcement Learning for Traffic Signal Control	Mar 10, 2022	Ensemble Learningreinforcement-learning	—Unverified
Randomized Policy Learning for Continuous State and Action MDPs	Jun 8, 2020	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Random Latent Exploration for Deep Reinforcement Learning	Jul 18, 2024	Deep Reinforcement Learningreinforcement-learning	—Unverified
Random Network Distillation as a Diversity Metric for Both Image and Text Generation	Oct 13, 2020	DiversityImage Generation	—Unverified
RangL: A Reinforcement Learning Competition Platform	Jul 28, 2022	OpenAI Gymreinforcement-learning	—Unverified
Ranking Items in Large-Scale Item Search Engines with Reinforcement Learning	Dec 14, 2020	Decision Makingreinforcement-learning	—Unverified
Ranking sentences from product description & bullets for better search	Jul 15, 2019	Extractive SummarizationNER	—Unverified
Rapid Learning of Spatial Representations for Goal-Directed Navigation Based on a Novel Model of Hippocampal Place Fields	Jun 5, 2022	One-Shot Learningreinforcement-learning	—Unverified
Rapid Locomotion via Reinforcement Learning	May 5, 2022	reinforcement-learningReinforcement Learning	—Unverified
Rapidly Personalizing Mobile Health Treatment Policies with Limited Data	Feb 23, 2020	Reinforcement LearningReinforcement Learning (RL)	—Unverified
RAPID-RL: A Reconfigurable Architecture with Preemptive-Exits for Efficient Deep-Reinforcement Learning	Sep 16, 2021	Deep Reinforcement LearningDrone navigation	—Unverified
RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation	Feb 4, 2025	Drone navigationReinforcement Learning (RL)	—Unverified
RAP: Runtime-Adaptive Pruning for LLM Inference	May 22, 2025	Reinforcement Learning (RL)	—Unverified
RASR: Risk-Averse Soft-Robust MDPs with EVaR and Entropic Risk	Sep 9, 2022	Reinforcement Learning (RL)Safe Reinforcement Learning	—Unverified
RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler	Jan 1, 2025	DenoisingReinforcement Learning (RL)	—Unverified
Rate-matching the regret lower-bound in the linear quadratic regulator with unknown dynamics	Feb 11, 2022	reinforcement-learningReinforcement Learning	—Unverified

Show:10 25 50

← PrevPage 376 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified