SOTAVerified|Agents Browse Leaderboard About Blog

NetHack

Mean in-game score over 1000 episodes with random seeds not seen during training. See https://arxiv.org/abs/2006.13760 (Section 2.4 Evaluation Protocol) for details.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–10 of 28 papers

Title	Date	Tasks	Status	Hype
MaestroMotif: Skill Design from Artificial Intelligence Feedback	Dec 11, 2024	Code GenerationDecision Making	—Unverified	0
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games	Nov 20, 2024	BenchmarkingNetHack	—Unverified	0
Syllabus: Portable Curricula for Reinforcement Learning Agents	Nov 18, 2024	NetHackreinforcement-learning	CodeCode Available	2
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback	Oct 30, 2024	Decision MakingLanguage Modeling	CodeCode Available	1
PufferLib: Making Reinforcement Learning Libraries and Environments Play Nice	Jun 11, 2024	NetHackreinforcement-learning	CodeCode Available	4
Playing NetHack with LLMs: Potential & Limitations as Zero-Shot Agents	Mar 1, 2024	Decision MakingMinecraft	CodeCode Available	1
Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning	Feb 26, 2024	GPUMinecraft	CodeCode Available	3
Skill Set Optimization: Reinforcing Language Model Behavior via Transferable Skills	Feb 5, 2024	Decision MakingLanguage Modeling	CodeCode Available	1
Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem	Feb 5, 2024	Montezuma's RevengeNetHack	CodeCode Available	0
diff History for Neural Language Agents	Dec 12, 2023	Decision MakingNetHack	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 3Next →

No leaderboard results yet.