Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 501–550 of 15113 papers

Title	Date	Tasks	Status	Hype
StablePrompt: Automatic Prompt Tuning using Reinforcement Learning for Large Language Models	Oct 10, 2024	Question AnsweringReinforcement Learning (RL)	CodeCode Available	1
Retrieval-Augmented Decision Transformer: External Memory for In-context RL	Oct 9, 2024	In-Context LearningReinforcement Learning (RL)	CodeCode Available	1
Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning	Oct 8, 2024	GSM8KMulti-agent Reinforcement Learning	CodeCode Available	1
GreenLight-Gym: Reinforcement learning benchmark environment for control of greenhouse production systems	Oct 6, 2024	Numerical IntegrationReinforcement Learning (RL)	CodeCode Available	1
Predictive Coding for Decision Transformer	Oct 4, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
Mitigating Adversarial Perturbations for Deep Reinforcement Learning via Vector Quantization	Oct 4, 2024	Deep Reinforcement LearningQuantization	CodeCode Available	1
ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI	Oct 3, 2024	Few-Shot Imitation LearningImitation Learning	CodeCode Available	1
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining	Oct 1, 2024	Atari Gamesmodel	CodeCode Available	1
CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models	Sep 27, 2024	Reinforcement Learning (RL)World Knowledge	CodeCode Available	1
ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning	Sep 27, 2024	AutoMLBenchmarking	CodeCode Available	1
DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors	Sep 26, 2024	continuous-controlContinuous Control	CodeCode Available	1
Reinforcement Learning-based Model Predictive Control for Greenhouse Climate Control	Sep 19, 2024	Model Predictive ControlPrediction	CodeCode Available	1
Leveraging Symmetry to Accelerate Learning of Trajectory Tracking Controllers for Free-Flying Robotic Systems	Sep 17, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Enhancing RL Safety with Counterfactual LLM Reasoning	Sep 16, 2024	counterfactualLanguage Modeling	CodeCode Available	1
AnyBipe: An End-to-End Framework for Training and Deploying Bipedal Robots Guided by Large Language Models	Sep 13, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control	Aug 30, 2024	Model-based Reinforcement LearningReinforcement Learning (RL)	CodeCode Available	1
What makes math problems hard for reinforcement learning: a case study	Aug 27, 2024	MathReinforcement Learning (RL)	CodeCode Available	1
Control-Informed Reinforcement Learning for Chemical Processes	Aug 24, 2024	Deep Reinforcement Learningreinforcement-learning	CodeCode Available	1
Mitigating Information Loss in Tree-Based Reinforcement Learning via Direct Optimization	Aug 16, 2024	Decision Makingreinforcement-learning	CodeCode Available	1
Fine-tuning LLMs for Autonomous Spacecraft Control: A Case Study Using Kerbal Space Program	Aug 16, 2024	Reinforcement Learning (RL)	CodeCode Available	1
Integrating Saliency Ranking and Reinforcement Learning for Enhanced Object Detection	Aug 13, 2024	Deep Reinforcement LearningObject	CodeCode Available	1
Listwise Reward Estimation for Offline Preference-based Reinforcement Learning	Aug 8, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	1
Model-Based Transfer Learning for Contextual Reinforcement Learning	Aug 8, 2024	Bayesian Optimizationcontinuous-control	CodeCode Available	1
RELIEF: Reinforcement Learning Empowered Graph Feature Prompt Tuning	Aug 6, 2024	Combinatorial OptimizationGraph Neural Network	CodeCode Available	1
Visual Grounding for Object-Level Generalization in Reinforcement Learning	Aug 4, 2024	Language ModellingObject	CodeCode Available	1
Collision Probability Distribution Estimation via Temporal Difference Learning	Jul 29, 2024	AI AgentAutonomous Driving	CodeCode Available	1
Reinforcement Learning Pair Trading: A Dynamic Scaling approach	Jul 23, 2024	Algorithmic TradingDecision Making	CodeCode Available	1
OASIS: Conditional Distribution Shaping for Offline Safe Reinforcement Learning	Jul 19, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	1
Learning Goal-Conditioned Representations for Language Reward Models	Jul 18, 2024	GSM8KMath	CodeCode Available	1
Variable-Agnostic Causal Exploration for Reinforcement Learning	Jul 17, 2024	Causal Discoveryreinforcement-learning	CodeCode Available	1
Chip Placement with Diffusion Models	Jul 17, 2024	Dataset GenerationDenoising	CodeCode Available	1
Energy-Guided Diffusion Sampling for Offline-to-Online Reinforcement Learning	Jul 17, 2024	MuJoCoreinforcement-learning	CodeCode Available	1
Reinforcement Learning in High-frequency Market Making	Jul 14, 2024	Q-Learningreinforcement-learning	CodeCode Available	1
A Benchmark Environment for Offline Reinforcement Learning in Racing Games	Jul 12, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	1
Transductive Active Learning with Application to Safe Bayesian Optimization	Jul 12, 2024	Active LearningBayesian Optimization	CodeCode Available	1
Can Learned Optimization Make Reinforcement Learning Less Difficult?	Jul 9, 2024	Decision MakingMeta-Learning	CodeCode Available	1
Stranger Danger! Identifying and Avoiding Unpredictable Pedestrians in RL-based Social Robot Navigation	Jul 8, 2024	Reinforcement Learning (RL)Robot Navigation	CodeCode Available	1
Hindsight Preference Learning for Offline Preference-based Reinforcement Learning	Jul 5, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	1
RobocupGym: A challenging continuous control benchmark in Robocup	Jul 3, 2024	Board Gamescontinuous-control	CodeCode Available	1
PUZZLES: A Benchmark for Neural Algorithmic Reasoning	Jun 29, 2024	Decision MakingLogical Reasoning	CodeCode Available	1
Memory-Enhanced Neural Solvers for Efficient Adaptation in Combinatorial Optimization	Jun 24, 2024	Combinatorial OptimizationReinforcement Learning (RL)	CodeCode Available	1
Soft-QMIX: Integrating Maximum Entropy For Monotonic Value Function Factorization	Jun 20, 2024	Multi-agent Reinforcement Learningreinforcement-learning	CodeCode Available	1
RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold	Jun 20, 2024	MathReinforcement Learning (RL)	CodeCode Available	1
Discovering Minimal Reinforcement Learning Environments	Jun 18, 2024	continuous-controlContinuous Control	CodeCode Available	1
Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning	Jun 10, 2024	Atari GamesReinforcement Learning (RL)	CodeCode Available	1
ICU-Sepsis: A Benchmark MDP Built from Real Medical Data	Jun 9, 2024	BenchmarkingManagement	CodeCode Available	1
HackAtari: Atari Learning Environments for Robust and Continual Reinforcement Learning	Jun 6, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	1
Strategically Conservative Q-Learning	Jun 6, 2024	D4RLOffline RL	CodeCode Available	1
Fine-Grained Causal Dynamics Learning with Quantization for Improving Robustness in Reinforcement Learning	Jun 5, 2024	QuantizationReinforcement Learning (RL)	CodeCode Available	1
CommonPower: A Framework for Safe Data-Driven Smart Grid Control	Jun 5, 2024	Benchmarkingenergy management	CodeCode Available	1

Show:10 25 50

← PrevPage 11 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified