SOTAVerified|Agents Browse Leaderboard About Blog

Memorization

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 1088 papers

Title	Date	Tasks	Status	Hype	Score
HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization	Jun 9, 2025	Combinatorial OptimizationMemorization	CodeCode Available	2	5
Exposing flaws of generative model evaluation metrics and their unfair treatment of diffusion models	Jun 7, 2023	DiversityImage Generation	CodeCode Available	2	5
HMT: Hierarchical Memory Transformer for Long Context Language Processing	May 9, 2024	Language ModelingLanguage Modelling	CodeCode Available	2	5
Detecting, Explaining, and Mitigating Memorization in Diffusion Models	Jul 31, 2024	Image GenerationMemorization	CodeCode Available	2	5
Decoupling Knowledge from Memorization: Retrieval-augmented Prompt Learning	May 29, 2022	Few-Shot Text ClassificationMemorization	CodeCode Available	2	5
Drive Like a Human: Rethinking Autonomous Driving with Large Language Models	Jul 14, 2023	Autonomous DrivingCommon Sense Reasoning	CodeCode Available	2	5
Causal Reasoning and Large Language Models: Opening a New Frontier for Causality	Apr 28, 2023	Causal DiscoveryCommon Sense Reasoning	CodeCode Available	2	5
Consistent Diffusion Meets Tweedie: Training Exact Ambient Diffusion Models with Noisy Data	Mar 20, 2024	Memorization	CodeCode Available	2	5
DS-1000: A Natural and Reliable Benchmark for Data Science Code Generation	Nov 18, 2022	Code GenerationMemorization	CodeCode Available	2	5
LawBench: Benchmarking Legal Knowledge of Large Language Models	Sep 28, 2023	ArticlesBenchmarking	CodeCode Available	2	5

Show:10 25 50

← PrevPage 3 of 109Next →

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	PaLM-540B (few-shot, k=5)	Accuracy	95.4	—	Unverified
2	Gopher-280B (few-shot, k=5)	Accuracy	80	—	Unverified
3	PaLM-62B (few-shot, k=5)	Accuracy	77.7	—	Unverified