Reinforcement Learning (RL)

Reinforcement Learning (RL) involves training an agent to take actions in an environment to maximize a cumulative reward signal. The agent interacts with the environment and learns by receiving feedback in the form of rewards or punishments for its actions. The goal of reinforcement learning is to find the optimal policy or decision-making strategy that maximizes the long-term reward.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2801–2850 of 15113 papers

Title	Date	Tasks	Status
Teaching LLMs for Step-Level Automatic Math Correction via Reinforcement Learning	Mar 24, 2025	Language ModelingLanguage Modelling	—Unverified
Evolutionary Policy Optimization	Mar 24, 2025	DiversityEvolutionary Algorithms	—Unverified
Continual Reinforcement Learning for HVAC Systems Control: Integrating Hypernetworks and Transfer Learning	Mar 24, 2025	Continual LearningDeep Reinforcement Learning	CodeCode Available
RLCAD: Reinforcement Learning Training Gym for Revolution Involved CAD Command Sequence Generation	Mar 24, 2025	Reinforcement Learning (RL)	—Unverified
AED: Automatic Discovery of Effective and Diverse Vulnerabilities for Autonomous Driving Policy with Large Language Models	Mar 24, 2025	Autonomous DrivingReinforcement Learning (RL)	—Unverified
Parental Guidance: Efficient Lifelong Learning through Evolutionary Distillation	Mar 24, 2025	Continual LearningDiversity	—Unverified
Option Discovery Using LLM-guided Semantic Hierarchical Reinforcement Learning	Mar 24, 2025	Decision MakingHierarchical Reinforcement Learning	—Unverified
Adaptive Multi-Fidelity Reinforcement Learning for Variance Reduction in Engineering Design Optimization	Mar 23, 2025	Reinforcement Learning (RL)Scheduling	—Unverified
Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization	Mar 23, 2025	Reinforcement Learning (RL)Response Generation	—Unverified
ViVa: Video-Trained Value Functions for Guiding Online RL from Diverse Data	Mar 23, 2025	Reinforcement Learning (RL)	—Unverified
Optimizing Navigation And Chemical Application in Precision Agriculture With Deep Reinforcement Learning And Conditional Action Tree	Mar 23, 2025	Decision MakingDeep Reinforcement Learning	—Unverified
A Roadmap Towards Improving Multi-Agent Reinforcement Learning With Causal Discovery And Inference	Mar 22, 2025	Causal DiscoveryMulti-agent Reinforcement Learning	—Unverified
ComfyGPT: A Self-Optimizing Multi-Agent System for Comprehensive ComfyUI Workflow Generation	Mar 22, 2025	Image GenerationReinforcement Learning (RL)	—Unverified
Transferable Latent-to-Latent Locomotion Policy for Efficient and Versatile Motion Control of Diverse Legged Robots	Mar 22, 2025	Reinforcement Learning (RL)	—Unverified
Autonomous Radiotherapy Treatment Planning Using DOLA: A Privacy-Preserving, LLM-Based Optimization Agent	Mar 21, 2025	Large Language ModelPrivacy Preserving	—Unverified
Curriculum RL meets Monte Carlo Planning: Optimization of a Real World Container Management Problem	Mar 21, 2025	Collision AvoidanceManagement	CodeCode Available
Causally Aligned Curriculum Learning	Mar 21, 2025	Reinforcement Learning (RL)	—Unverified
UAS Visual Navigation in Large and Unseen Environments via a Meta Agent	Mar 20, 2025	Incremental LearningMeta Reinforcement Learning	—Unverified
OThink-MR1: Stimulating multimodal generalized reasoning capabilities via dynamic reinforcement learning	Mar 20, 2025	Reinforcement Learning (RL)	—Unverified
Towards Automated Semantic Interpretability in Reinforcement Learning via Vision-Language Models	Mar 20, 2025	reinforcement-learningReinforcement Learning	—Unverified
Reinforcement Learning-based Heuristics to Guide Domain-Independent Dynamic Programming	Mar 20, 2025	Combinatorial Optimizationreinforcement-learning	CodeCode Available
Grammar and Gameplay-aligned RL for Game Description Generation with LLMs	Mar 20, 2025	reinforcement-learningReinforcement Learning	—Unverified
RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models	Mar 20, 2025	Image GenerationMedical Image Generation	—Unverified
Behaviour Discovery and Attribution for Explainable Reinforcement Learning	Mar 19, 2025	Offline RLreinforcement-learning	—Unverified
Reinforcement Learning Environment with LLM-Controlled Adversary in D&D 5th Edition Combat	Mar 19, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
Empowering Medical Multi-Agents with Clinical Consultation Flow for Dynamic Diagnosis	Mar 19, 2025	Decision MakingDiagnostic	—Unverified
Comprehensive Review of Reinforcement Learning for Medical Ultrasound Imaging	Mar 19, 2025	reinforcement-learningReinforcement Learning	—Unverified
Neural Lyapunov Function Approximation with Self-Supervised Reinforcement Learning	Mar 19, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
LogLLaMA: Transformer-based log anomaly detection with LLaMA	Mar 19, 2025	Anomaly DetectionReinforcement Learning (RL)	—Unverified
Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning	Mar 19, 2025	Reinforcement Learning (RL)	—Unverified
Good Actions Succeed, Bad Actions Generalize: A Case Study on Why RL Generalizes Better	Mar 19, 2025	AttributeReinforcement Learning (RL)	—Unverified
1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities	Mar 19, 2025	Reinforcement Learning (RL)Self-Supervised Learning	—Unverified
DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning	Mar 19, 2025	reinforcement-learningReinforcement Learning	—Unverified
Pauli Network Circuit Synthesis with Reinforcement Learning	Mar 18, 2025	reinforcement-learningReinforcement Learning	—Unverified
CTSAC: Curriculum-Based Transformer Soft Actor-Critic for Goal-Oriented Robot Exploration	Mar 18, 2025	reinforcement-learningReinforcement Learning	—Unverified
Revealing higher-order neural representations of uncertainty with the Noise Estimation through Reinforcement-based Diffusion (NERD) model	Mar 18, 2025	DenoisingNoise Estimation	—Unverified
A Reinforcement Learning-Driven Transformer GAN for Molecular Generation	Mar 17, 2025	Drug Discoveryreinforcement-learning	—Unverified
FLEX: A Framework for Learning Robot-Agnostic Force-based Skills Involving Sustained Contact Object Manipulation	Mar 17, 2025	Imitation LearningObject	—Unverified
APF+: Boosting adaptive-potential function reinforcement learning methods with a W-shaped network for high-dimensional games	Mar 17, 2025	Atari GamesQ-Learning	—Unverified
Synchronous vs Asynchronous Reinforcement Learning in a Real World Robot	Mar 17, 2025	Decision MakingReinforcement Learning (RL)	—Unverified
Dynamic Angle Selection in X-Ray CT: A Reinforcement Learning Approach to Optimal Stopping	Mar 16, 2025	Computed Tomography (CT)Experimental Design	—Unverified
Evaluation-Time Policy Switching for Offline Reinforcement Learning	Mar 15, 2025	Behavioural cloningOffline RL	—Unverified
Adaptive Torque Control of Exoskeletons under Spasticity Conditions via Reinforcement Learning	Mar 14, 2025	Deep Reinforcement LearningReinforcement Learning (RL)	—Unverified
Exploring Competitive and Collusive Behaviors in Algorithmic Pricing with Deep Reinforcement Learning	Mar 14, 2025	Deep Reinforcement LearningQ-Learning	—Unverified
Learning to reset in target search problems	Mar 14, 2025	reinforcement-learningReinforcement Learning	CodeCode Available
Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning	Mar 14, 2025	BenchmarkingNavigate	—Unverified
Reinforcement Learning-Based Controlled Switching Approach for Inrush Current Minimization in Power Transformers	Mar 14, 2025	Reinforcement Learning (RL)	—Unverified
Sketch-to-Skill: Bootstrapping Robot Learning with Human Drawn Trajectory Sketches	Mar 14, 2025	Imitation Learningreinforcement-learning	—Unverified
DeepSeek-Inspired Exploration of RL-based LLMs and Synergy with Wireless Networks: A Survey	Mar 13, 2025	Edge-computingIntelligent Communication	—Unverified
Representation-based Reward Modeling for Efficient Safety Alignment of Large Language Model	Mar 13, 2025	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 57 of 303Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PPG	Mean Normalized Performance	0.76	—	Unverified
2	PPO	Mean Normalized Performance	0.58	—	Unverified