Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4951–5000 of 15113 papers

Title	Date	Tasks	Status
PEARL: Zero-shot Cross-task Preference Alignment and Robust Reward Learning for Robotic Manipulation	Jun 6, 2023	Offline RLReinforcement Learning (RL)	—Unverified
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining	Jun 6, 2023	Knowledge DistillationModel-based Reinforcement Learning	CodeCode Available
Mildly Constrained Evaluation Policy for Offline Reinforcement Learning	Jun 6, 2023	D4RLMuJoCo	CodeCode Available
Boosting Offline Reinforcement Learning with Action Preference Query	Jun 6, 2023	Autonomous DrivingD4RL	—Unverified
CAVEN: An Embodied Conversational Agent for Efficient Audio-Visual Navigation in Noisy Environments	Jun 6, 2023	Hierarchical Reinforcement LearningNavigate	—Unverified
A Novel Multi-Agent Deep RL Approach for Traffic Signal Control	Jun 5, 2023	Deep Reinforcement Learningreinforcement-learning	—Unverified
A General Perspective on Objectives of Reinforcement Learning	Jun 5, 2023	reinforcement-learningReinforcement Learning	—Unverified
Action-Evolution Petri Nets: a Framework for Modeling and Solving Dynamic Task Assignment Problems	Jun 5, 2023	Reinforcement Learning (RL)	—Unverified
Risk-Aware Reward Shaping of Reinforcement Learning Agents for Autonomous Driving	Jun 5, 2023	Autonomous DrivingMotion Planning	CodeCode Available
Survival Instinct in Offline Reinforcement Learning	Jun 5, 2023	Offline RLreinforcement-learning	—Unverified
Cycle Consistency Driven Object Discovery	Jun 3, 2023	ObjectObject Discovery	—Unverified
Improving the generalizability and robustness of large-scale traffic signal control	Jun 2, 2023	Deep Reinforcement LearningDistributional Reinforcement Learning	—Unverified
Interpretable and Explainable Logical Policies via Neurally Guided Symbolic Abstraction	Jun 2, 2023	Reinforcement Learning (RL)	—Unverified
Efficient Reinforcement Learning with Impaired Observability: Learning to Act with Delayed and Missing State Observations	Jun 2, 2023	Reinforcement Learning (RL)	—Unverified
An Architecture for Deploying Reinforcement Learning in Industrial Environments	Jun 2, 2023	reinforcement-learningReinforcement Learning	—Unverified
Deep Q-Learning versus Proximal Policy Optimization: Performance Comparison in a Material Sorting Task	Jun 2, 2023	Deep Reinforcement LearningQ-Learning	—Unverified
A Modular Test Bed for Reinforcement Learning Incorporation into Industrial Applications	Jun 2, 2023	reinforcement-learningReinforcement Learning	—Unverified
Hyperparameters in Reinforcement Learning and How To Tune Them	Jun 2, 2023	AutoMLDeep Reinforcement Learning	—Unverified
Learning to Stabilize Online Reinforcement Learning in Unbounded State Spaces	Jun 2, 2023	Attributereinforcement-learning	CodeCode Available
Reinforcement Learning with General Utilities: Simpler Variance Reduction and Large State-Action Space	Jun 2, 2023	Reinforcement Learning (RL)	—Unverified
Non-stationary Reinforcement Learning under General Function Approximation	Jun 1, 2023	reinforcement-learningReinforcement Learning	—Unverified
Normalization Enhances Generalization in Visual Reinforcement Learning	Jun 1, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Heterogeneous Knowledge for Augmented Modular Reinforcement Learning	Jun 1, 2023	Decision Makingreinforcement-learning	—Unverified
Delphic Offline Reinforcement Learning under Nonidentifiable Hidden Confounding	Jun 1, 2023	ManagementOffline RL	—Unverified
Identifiability and Generalizability in Constrained Inverse Reinforcement Learning	Jun 1, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Achieving Fairness in Multi-Agent Markov Decision Processes Using Reinforcement Learning	Jun 1, 2023	FairnessOffline RL	—Unverified
IQL-TD-MPC: Implicit Q-Learning for Hierarchical Model Predictive Control	Jun 1, 2023	D4RLModel-based Reinforcement Learning	—Unverified
Replicability in Reinforcement Learning	May 31, 2023	reinforcement-learningReinforcement Learning	—Unverified
MetaDiffuser: Diffusion Model as Conditional Planner for Offline Meta-RL	May 31, 2023	MuJoCoReinforcement Learning (RL)	—Unverified
Robust Reinforcement Learning Objectives for Sequential Recommender Systems	May 30, 2023	Offline RLRecommendation Systems	CodeCode Available
Policy Optimization for Continuous Reinforcement Learning	May 30, 2023	reinforcement-learningReinforcement Learning	—Unverified
RL + Model-based Control: Using On-demand Optimal Control to Learn Versatile Legged Locomotion	May 29, 2023	Reinforcement Learning (RL)	—Unverified
Off-Policy RL Algorithms Can be Sample-Efficient for Continuous Control via Sample Multiple Reuse	May 29, 2023	continuous-controlContinuous Control	CodeCode Available
Towards a Better Understanding of Representation Dynamics under TD-learning	May 29, 2023	Reinforcement Learning (RL)Representation Learning	—Unverified
Bridging the Sim-to-Real Gap from the Information Bottleneck Perspective	May 29, 2023	Knowledge DistillationReinforcement Learning (RL)	CodeCode Available
RLAD: Reinforcement Learning from Pixels for Autonomous Driving in Urban Environments	May 29, 2023	Autonomous Drivingreinforcement-learning	—Unverified
Potential-based Credit Assignment for Cooperative RL-based Testing of Autonomous Vehicles	May 28, 2023	Autonomous Vehiclescounterfactual	—Unverified
The Curious Price of Distributional Robustness in Reinforcement Learning with a Generative Model	May 26, 2023	Reinforcement Learning (RL)	—Unverified
Reinforcement Learning with Simple Sequence Priors	May 26, 2023	continuous-controlContinuous Control	—Unverified
Policy Synthesis and Reinforcement Learning for Discounted LTL	May 26, 2023	PAC learningreinforcement-learning	—Unverified
Emergent Agentic Transformer from Chain of Hindsight Experience	May 26, 2023	D4RLImitation Learning	—Unverified
Learning Interpretable Models of Aircraft Handling Behaviour by Reinforcement Learning from Human Feedback	May 26, 2023	Reinforcement Learning (RL)	—Unverified
Distributional Reinforcement Learning with Dual Expectile-Quantile Regression	May 26, 2023	Continuous ControlDistributional Reinforcement Learning	—Unverified
A Reminder of its Brittleness: Language Reward Shaping May Hinder Learning for Instruction Following Agents	May 26, 2023	Instruction FollowingReinforcement Learning (RL)	CodeCode Available
End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes	May 25, 2023	Bayesian OptimisationInductive Bias	CodeCode Available
DPOK: Reinforcement Learning for Fine-tuning Text-to-Image Diffusion Models	May 25, 2023	reinforcement-learningReinforcement Learning (RL)	CodeCode Available
Deterministic policy gradient based optimal control with probabilistic constraints	May 25, 2023	Model Predictive Controlreinforcement-learning	—Unverified
Reward-Machine-Guided, Self-Paced Reinforcement Learning	May 25, 2023	reinforcement-learningReinforcement Learning	CodeCode Available
Matrix Estimation for Offline Reinforcement Learning with Low-Rank Structure	May 24, 2023	Matrix Completionreinforcement-learning	—Unverified
Decision-Aware Actor-Critic with Function Approximation and Theoretical Guarantees	May 24, 2023	Reinforcement Learning (RL)	CodeCode Available

Show:10 25 50

← PrevPage 100 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified