Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9651–9700 of 15113 papers

Title	Date	Tasks	Status
MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning Research	Sep 27, 2021	Deep Reinforcement LearningNetHack	—Unverified
Minimal Batch Adaptive Learning Policy Engine for Real-Time Mid-Price Forecasting in High-Frequency Trading	Dec 26, 2024	Feature ImportanceReinforcement Learning (RL)	—Unverified
Minimalist and High-performance Conversational Recommendation with Uncertainty Estimation for User Preference	Jun 29, 2022	AttributeConversational Recommendation	—Unverified
Minimalistic Attacks: How Little it Takes to Fool a Deep Reinforcement Learning Policy	Nov 10, 2019	Adversarial AttackAtari Games	—Unverified
Minimal Value-Equivalent Partial Models for Scalable and Robust Planning in Lifelong Reinforcement Learning	Jan 24, 2023	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Minimax Model Learning	Mar 2, 2021	modelModel-based Reinforcement Learning	—Unverified
Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning	Mar 14, 2024	Offline RLReinforcement Learning (RL)	—Unverified
Nearly Minimax Optimal Reinforcement Learning for Discounted MDPs	Oct 1, 2020	reinforcement-learningReinforcement Learning	—Unverified
Minimax Optimal Reinforcement Learning with Quasi-Optimism	Mar 2, 2025	Computational Efficiencyreinforcement-learning	—Unverified
Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning	Apr 14, 2023	Offline RLreinforcement-learning	—Unverified
Minimax Sample Complexity for Turn-based Stochastic Game	Nov 29, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Minimax Strikes Back	Dec 19, 2020	Deep Reinforcement LearningGPU	—Unverified
Minimax Weight and Q-Function Learning for Off-Policy Evaluation	Oct 28, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Minimax Weight Learning for Absorbing MDPs	Jan 9, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Minimizing Communication while Maximizing Performance in Multi-Agent Reinforcement Learning	Jun 15, 2021	Multi-agent Reinforcement LearningMulti-Task Learning	—Unverified
Minimizing Human Assistance: Augmenting a Single Demonstration for Deep Reinforcement Learning	Sep 22, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Minimizing Safety Interference for Safe and Comfortable Automated Driving with Distributional Reinforcement Learning	Jul 15, 2021	Autonomous VehiclesDistributional Reinforcement Learning	—Unverified
Minimizing the Outage Probability in a Markov Decision Process	Feb 28, 2023	Q-Learningreinforcement-learning	—Unverified
Minimum Description Length Control	Jul 17, 2022	Bayesian Inferencecontinuous-control	—Unverified
Minimum Description Length Skills for Accelerated Reinforcement Learning	Mar 9, 2021	reinforcement-learningReinforcement Learning	—Unverified
Minimum information divergence of Q-functions for dynamic treatment resumes	Nov 16, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mining Evidences for Concept Stock Recommendation	Jun 1, 2018	Deep Reinforcement LearningInformation Retrieval	—Unverified
Mint: Matrix-Interleaving for Multi-Task Learning	Sep 25, 2019	Multi-Task Learningreinforcement-learning	—Unverified
APPTeK: Agent-Based Predicate Prediction in Temporal Knowledge Graphs	Oct 27, 2021	Knowledge GraphsPrediction	—Unverified
Mirror Descent Actor Critic via Bounded Advantage Learning	Feb 6, 2025	Reinforcement Learning (RL)	—Unverified
Mission schedule of agile satellites based on Proximal Policy Optimization Algorithm	Jul 5, 2020	reinforcement-learningReinforcement Learning	—Unverified
Misspecification in Inverse Reinforcement Learning	Dec 6, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mis-spoke or mis-lead: Achieving Robustness in Multi-Agent Communicative Reinforcement Learning	Aug 9, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Mitigate Bias in Face Recognition using Skewness-Aware Reinforcement Learning	Nov 25, 2019	Face RecognitionFairness	—Unverified
Mitigating Bias in Face Recognition Using Skewness-Aware Reinforcement Learning	Jun 1, 2020	Face RecognitionFairness	—Unverified
Mitigating Dimensionality in 2D Rectangle Packing Problem under Reinforcement Learning Schema	Sep 15, 2024	reinforcement-learningReinforcement Learning	—Unverified
Mitigating Multi-Stage Cascading Failure by Reinforcement Learning	Aug 19, 2019	reinforcement-learningReinforcement Learning	—Unverified
Mitigating Partial Observability in Adaptive Traffic Signal Control with Transformers	Sep 16, 2024	ManagementReinforcement Learning (RL)	—Unverified
Mitigating Planner Overfitting in Model-Based Reinforcement Learning	Dec 3, 2018	modelModel-based Reinforcement Learning	—Unverified
Mitigating Political Bias in Language Models Through Reinforced Calibration	Apr 30, 2021	reinforcement-learningReinforcement Learning (RL)	—Unverified
Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization	Mar 23, 2025	Reinforcement Learning (RL)Response Generation	—Unverified
Mitigation of Adversarial Policy Imitation via Constrained Randomization of Policy (CRoP)	Sep 29, 2021	Deep Reinforcement LearningImitation Learning	—Unverified
Mitigation of Policy Manipulation Attacks on Deep Q-Networks with Parameter-Space Noise	Jun 4, 2018	Deep Reinforcement Learningreinforcement-learning	—Unverified
Mix and Match: Markov Chains & Mixing Times for Matching in Rideshare	Nov 30, 2019	reinforcement-learningReinforcement Learning	—Unverified
Mixed Cooperative-Competitive Communication Using Multi-Agent Reinforcement Learning	Oct 29, 2021	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Robust Policy Optimization in Continuous-time Mixed H_2/H_ Stochastic Control	Sep 9, 2022	reinforcement-learningReinforcement Learning (RL)	—Unverified
Mixed-Precision Conjugate Gradient Solvers with RL-Driven Precision Tuning	Apr 19, 2025	Computational EfficiencyQ-Learning	—Unverified
Mixed-Precision Neural Networks: A Survey	Aug 11, 2022	QuantizationReinforcement Learning (RL)	—Unverified
Mixed Reinforcement Learning with Additive Stochastic Uncertainty	Feb 28, 2020	reinforcement-learningReinforcement Learning	—Unverified
Mixing Human Demonstrations with Self-Exploration in Experience Replay for Deep Reinforcement Learning	Jul 14, 2021	Deep Reinforcement Learningreinforcement-learning	—Unverified
MIX-MAB: Reinforcement Learning-based Resource Allocation Algorithm for LoRaWAN	Jun 7, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mix & Match - Agent Curricula for Reinforcement Learning	Jul 1, 2018	reinforcement-learningReinforcement Learning	—Unverified
Mix&Match - Agent Curricula for Reinforcement Learning	Jun 5, 2018	reinforcement-learningReinforcement Learning	—Unverified
MIXRTs: Toward Interpretable Multi-Agent Reinforcement Learning via Mixing Recurrent Soft Decision Trees	Sep 15, 2022	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
MLComp: A Methodology for Machine Learning-based Performance Estimation and Adaptive Selection of Pareto-Optimal Compiler Optimization Sequences	Dec 9, 2020	Compiler Optimizationreinforcement-learning	—Unverified

Show:10 25 50

← PrevPage 194 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified