Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1501–1550 of 15113 papers

Title	Date	Tasks	Status	Hype
A Reinforcement Learning Engine with Reduced Action and State Space for Scalable Cyber-Physical Optimal Response	Oct 6, 2024	Reinforcement Learning (RL)	—Unverified	0
Improved Off-policy Reinforcement Learning in Biological Sequence Design	Oct 6, 2024	reinforcement-learningReinforcement Learning	CodeCode Available	0
DeepLTL: Learning to Efficiently Satisfy Complex LTL Specifications for Multi-Task RL	Oct 6, 2024	Reinforcement Learning (RL)	—Unverified	0
Improving Portfolio Optimization Results with Bandit Networks	Oct 5, 2024	Portfolio OptimizationRecommendation Systems	CodeCode Available	0
Spatial-aware decision-making with ring attractors in reinforcement learning systems	Oct 4, 2024	Decision MakingReinforcement Learning (RL)	—Unverified	0
Predictive Coding for Decision Transformer	Oct 4, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	1
Mitigating Adversarial Perturbations for Deep Reinforcement Learning via Vector Quantization	Oct 4, 2024	Deep Reinforcement LearningQuantization	CodeCode Available	1
CLoSD: Closing the Loop between Simulation and Diffusion for multi-task character control	Oct 4, 2024	Motion GenerationReinforcement Learning (RL)	CodeCode Available	3
Solving Reach-Avoid-Stay Problems Using Deep Deterministic Policy Gradients	Oct 3, 2024	Reinforcement Learning (RL)	—Unverified	0
Efficient Residual Learning with Mixture-of-Experts for Universal Dexterous Grasping	Oct 3, 2024	GPUMixture-of-Experts	—Unverified	0
ReLIC: A Recipe for 64k Steps of In-Context Reinforcement Learning for Embodied AI	Oct 3, 2024	Few-Shot Imitation LearningImitation Learning	CodeCode Available	1
Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments	Oct 3, 2024	Multi-agent Reinforcement LearningReinforcement Learning (RL)	—Unverified	0
Cross-Embodiment Dexterous Grasping with Reinforcement Learning	Oct 3, 2024	reinforcement-learningReinforcement Learning	—Unverified	0
End-to-end Driving in High-Interaction Traffic Scenarios with Reinforcement Learning	Oct 3, 2024	Autonomous DrivingCARLA Leaderboard 2.0	—Unverified	0
Dual Active Learning for Reinforcement Learning from Human Feedback	Oct 3, 2024	Active Learningreinforcement-learning	—Unverified	0
Beyond Expected Returns: A Policy Gradient Algorithm for Cumulative Prospect Theoretic Reinforcement Learning	Oct 3, 2024	Reinforcement Learning (RL)	—Unverified	0
The Smart Buildings Control Suite: A Diverse Open Source Benchmark to Evaluate and Scale HVAC Control Policies for Sustainability	Oct 2, 2024	Model Predictive ControlOffline RL	—Unverified	0
ComaDICE: Offline Cooperative Multi-Agent Reinforcement Learning with Stationary Distribution Shift Regularization	Oct 2, 2024	MuJoCoMulti-agent Reinforcement Learning	—Unverified	0
Don't flatten, tokenize! Unlocking the key to SoftMoE's efficacy in deep RL	Oct 2, 2024	Reinforcement Learning (RL)	—Unverified	0
LLM-Augmented Symbolic Reinforcement Learning with Landmark-Based Task Decomposition	Oct 2, 2024	Common Sense ReasoningInductive logic programming	—Unverified	0
Adaptive teachers for amortized samplers	Oct 2, 2024	Decision MakingEfficient Exploration	CodeCode Available	0
Sampling from Energy-based Policies using Diffusion	Oct 2, 2024	continuous-controlContinuous Control	—Unverified	0
VinePPO: Unlocking RL Potential For LLM Reasoning Through Refined Credit Assignment	Oct 2, 2024	GSM8KMath	CodeCode Available	2
Sparse Autoencoders Reveal Temporal Difference Learning in Large Language Models	Oct 2, 2024	In-Context LearningReinforcement Learning (RL)	—Unverified	0
Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space	Oct 2, 2024	Decision MakingDistributional Reinforcement Learning	—Unverified	0
Scalable Reinforcement Learning-based Neural Architecture Search	Oct 2, 2024	Neural Architecture Searchreinforcement-learning	—Unverified	0
PreND: Enhancing Intrinsic Motivation in Reinforcement Learning through Pre-trained Network Distillation	Oct 2, 2024	Developmental Learningreinforcement-learning	—Unverified	0
Absolute State-wise Constrained Policy Optimization: High-Probability State-wise Constraints Satisfaction	Oct 2, 2024	Autonomous Drivingcontinuous-control	—Unverified	0
Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining	Oct 1, 2024	Atari Gamesmodel	CodeCode Available	1
Upper and Lower Bounds for Distributionally Robust Off-Dynamics Reinforcement Learning	Sep 30, 2024	2kComputational Efficiency	—Unverified	0
Task-agnostic Pre-training and Task-guided Fine-tuning for Versatile Diffusion Planner	Sep 30, 2024	Reinforcement Learning (RL)	—Unverified	0
Personalisation via Dynamic Policy Fusion	Sep 30, 2024	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified	0
Focus On What Matters: Separated Models For Visual-Based RL Generalization	Sep 29, 2024	Image ReconstructionReinforcement Learning (RL)	—Unverified	0
Analysis on Riemann Hypothesis with Cross Entropy Optimization and Reasoning	Sep 29, 2024	Reinforcement Learning (RL)	—Unverified	0
Constrained Reinforcement Learning for Safe Heat Pump Control	Sep 29, 2024	Benchmarkingreinforcement-learning	CodeCode Available	0
Grounded Curriculum Learning	Sep 29, 2024	Reinforcement Learning (RL)	—Unverified	0
Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization	Sep 28, 2024	Reinforcement Learning (RL)	—Unverified	0
Learning to Bridge the Gap: Efficient Novelty Recovery with Planning and Reinforcement Learning	Sep 28, 2024	Reinforcement Learning (RL)	—Unverified	0
Strongly-polynomial time and validation analysis of policy gradient methods	Sep 28, 2024	Policy Gradient MethodsReinforcement Learning (RL)	—Unverified	0
Climate Adaptation with Reinforcement Learning: Experiments with Flooding and Transportation in Copenhagen	Sep 27, 2024	Decision MakingReinforcement Learning (RL)	CodeCode Available	0
ARLBench: Flexible and Efficient Benchmarking for Hyperparameter Optimization in Reinforcement Learning	Sep 27, 2024	AutoMLBenchmarking	CodeCode Available	1
Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning	Sep 27, 2024	Federated LearningImitation Learning	—Unverified	0
TemporalPaD: a reinforcement-learning framework for temporal feature representation and dimension reduction	Sep 27, 2024	Dimensionality ReductionReinforcement Learning (RL)	—Unverified	0
CurricuLLM: Automatic Task Curricula Design for Learning Complex Robot Skills using Large Language Models	Sep 27, 2024	Reinforcement Learning (RL)World Knowledge	CodeCode Available	1
Cost-Aware Dynamic Cloud Workflow Scheduling using Self-Attention and Evolutionary Reinforcement Learning	Sep 27, 2024	Reinforcement Learning (RL)Scheduling	—Unverified	0
Optimizing Downlink C-NOMA Transmission with Movable Antennas: A DDPG-based Approach	Sep 26, 2024	Reinforcement Learning (RL)	—Unverified	0
DMC-VB: A Benchmark for Representation Learning for Control with Visual Distractors	Sep 26, 2024	continuous-controlContinuous Control	CodeCode Available	1
LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots	Sep 26, 2024	Contrastive LearningDecoder	—Unverified	0
Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards	Sep 26, 2024	Automated Essay Scoringreinforcement-learning	—Unverified	0
Asynchronous Fractional Multi-Agent Deep Reinforcement Learning for Age-Minimal Mobile Edge Computing	Sep 25, 2024	Deep Reinforcement LearningEdge-computing	—Unverified	0

Show:10 25 50

← PrevPage 31 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified