Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 9651–9675 of 15113 papers

Title	Date	Tasks	Status
MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning Research	Sep 27, 2021	Deep Reinforcement LearningNetHack	—Unverified
Minimal Batch Adaptive Learning Policy Engine for Real-Time Mid-Price Forecasting in High-Frequency Trading	Dec 26, 2024	Feature ImportanceReinforcement Learning (RL)	—Unverified
Minimalist and High-performance Conversational Recommendation with Uncertainty Estimation for User Preference	Jun 29, 2022	AttributeConversational Recommendation	—Unverified
Minimalistic Attacks: How Little it Takes to Fool a Deep Reinforcement Learning Policy	Nov 10, 2019	Adversarial AttackAtari Games	—Unverified
Minimal Value-Equivalent Partial Models for Scalable and Robust Planning in Lifelong Reinforcement Learning	Jan 24, 2023	Model-based Reinforcement Learningreinforcement-learning	—Unverified
Minimax Model Learning	Mar 2, 2021	modelModel-based Reinforcement Learning	—Unverified
Minimax Optimal and Computationally Efficient Algorithms for Distributionally Robust Offline Reinforcement Learning	Mar 14, 2024	Offline RLReinforcement Learning (RL)	—Unverified
Nearly Minimax Optimal Reinforcement Learning for Discounted MDPs	Oct 1, 2020	reinforcement-learningReinforcement Learning	—Unverified
Minimax Optimal Reinforcement Learning with Quasi-Optimism	Mar 2, 2025	Computational Efficiencyreinforcement-learning	—Unverified
Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning	Apr 14, 2023	Offline RLreinforcement-learning	—Unverified
Minimax Sample Complexity for Turn-based Stochastic Game	Nov 29, 2020	Multi-agent Reinforcement Learningreinforcement-learning	—Unverified
Minimax Strikes Back	Dec 19, 2020	Deep Reinforcement LearningGPU	—Unverified
Minimax Weight and Q-Function Learning for Off-Policy Evaluation	Oct 28, 2019	Off-policy evaluationReinforcement Learning	—Unverified
Minimax Weight Learning for Absorbing MDPs	Jan 9, 2023	reinforcement-learningReinforcement Learning (RL)	—Unverified
Minimizing Communication while Maximizing Performance in Multi-Agent Reinforcement Learning	Jun 15, 2021	Multi-agent Reinforcement LearningMulti-Task Learning	—Unverified
Minimizing Human Assistance: Augmenting a Single Demonstration for Deep Reinforcement Learning	Sep 22, 2022	Deep Reinforcement Learningreinforcement-learning	—Unverified
Minimizing Safety Interference for Safe and Comfortable Automated Driving with Distributional Reinforcement Learning	Jul 15, 2021	Autonomous VehiclesDistributional Reinforcement Learning	—Unverified
Minimizing the Outage Probability in a Markov Decision Process	Feb 28, 2023	Q-Learningreinforcement-learning	—Unverified
Minimum Description Length Control	Jul 17, 2022	Bayesian Inferencecontinuous-control	—Unverified
Minimum Description Length Skills for Accelerated Reinforcement Learning	Mar 9, 2021	reinforcement-learningReinforcement Learning	—Unverified
Minimum information divergence of Q-functions for dynamic treatment resumes	Nov 16, 2022	reinforcement-learningReinforcement Learning	—Unverified
Mining Evidences for Concept Stock Recommendation	Jun 1, 2018	Deep Reinforcement LearningInformation Retrieval	—Unverified
Mint: Matrix-Interleaving for Multi-Task Learning	Sep 25, 2019	Multi-Task Learningreinforcement-learning	—Unverified
APPTeK: Agent-Based Predicate Prediction in Temporal Knowledge Graphs	Oct 27, 2021	Knowledge GraphsPrediction	—Unverified
Mirror Descent Actor Critic via Bounded Advantage Learning	Feb 6, 2025	Reinforcement Learning (RL)	—Unverified

Show:10 25 50

← PrevPage 387 of 605Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified