NetHack

Mean in-game score over 1000 episodes with random seeds not seen during training. See https://arxiv.org/abs/2006.13760 (Section 2.4 Evaluation Protocol) for details.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 28 papers

Title	Date	Tasks	Status	Hype
MaestroMotif: Skill Design from Artificial Intelligence Feedback	Dec 11, 2024	Code GenerationDecision Making	—Unverified	0
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games	Nov 20, 2024	BenchmarkingNetHack	—Unverified	0
Syllabus: Portable Curricula for Reinforcement Learning Agents	Nov 18, 2024	NetHackreinforcement-learning	CodeCode Available	2
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback	Oct 30, 2024	Decision MakingLanguage Modeling	CodeCode Available	1
PufferLib: Making Reinforcement Learning Libraries and Environments Play Nice	Jun 11, 2024	NetHackreinforcement-learning	CodeCode Available	4
Playing NetHack with LLMs: Potential & Limitations as Zero-Shot Agents	Mar 1, 2024	Decision MakingMinecraft	CodeCode Available	1
Craftax: A Lightning-Fast Benchmark for Open-Ended Reinforcement Learning	Feb 26, 2024	GPUMinecraft	CodeCode Available	3
Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem	Feb 5, 2024	Montezuma's RevengeNetHack	CodeCode Available	0
Skill Set Optimization: Reinforcing Language Model Behavior via Transferable Skills	Feb 5, 2024	Decision MakingLanguage Modeling	CodeCode Available	1
diff History for Neural Language Agents	Dec 12, 2023	Decision MakingNetHack	CodeCode Available	1
Motif: Intrinsic Motivation from Artificial Intelligence Feedback	Sep 29, 2023	Decision MakingLanguage Modeling	CodeCode Available	1
Selective Perception: Optimizing State Descriptions with Reinforcement Learning for Language Model Actors	Jul 21, 2023	Decision MakingLanguage Modeling	—Unverified	0
Scaling Laws for Imitation Learning in Single-Agent Games	Jul 18, 2023	Atari GamesImitation Learning	CodeCode Available	1
LuckyMera: a Modular AI Framework for Building Hybrid NetHack Agents	Jul 17, 2023	NetHack	CodeCode Available	1
Katakomba: Tools and Benchmarks for Data-Driven NetHack	Jun 14, 2023	D4RLNetHack	CodeCode Available	1
Accelerating exploration and representation learning with offline pre-training	Mar 31, 2023	Decision MakingNetHack	—Unverified	0
Dungeons and Data: A Large-Scale NetHack Dataset	Nov 1, 2022	Decision MakingNetHack	CodeCode Available	2
Improving Policy Learning via Language Dynamics Distillation	Sep 30, 2022	NetHackReinforcement Learning (RL)	CodeCode Available	0
Hierarchical Kickstarting for Skill Transfer in Reinforcement Learning	Jul 23, 2022	Inductive BiasNetHack	CodeCode Available	1
Insights From the NeurIPS 2021 NetHack Challenge	Mar 22, 2022	NetHackReinforcement Learning (RL)	CodeCode Available	0
SILG: The Multi-domain Symbolic Interactive Language Grounding Benchmark	Dec 1, 2021	Grounded language learningNetHack	—Unverified	0
NovelD: A Simple yet Effective Exploration Criterion	Dec 1, 2021	Atari GamesDeep Reinforcement Learning	CodeCode Available	1
SILG: The Multi-environment Symbolic Interactive Language Grounding Benchmark	Oct 20, 2021	Grounded language learningNetHack	CodeCode Available	1
CORA: Benchmarks, Baselines, and Metrics as a Platform for Continual Reinforcement Learning Agents	Oct 19, 2021	NetHackreinforcement-learning	CodeCode Available	1
MiniHack the Planet: A Sandbox for Open-Ended Reinforcement Learning Research	Sep 27, 2021	Deep Reinforcement LearningNetHack	—Unverified	0

Show:10 25 50

← PrevPage 1 of 2Next →

No leaderboard results yet.