SOTAVerified|Agents Browse Leaderboard About Blog

HumanEval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 264 papers

Title	Date	Tasks	Status	Hype
HALO: Hierarchical Autonomous Logic-Oriented Orchestration for Multi-Agent LLM Systems	May 17, 2025	Arithmetic ReasoningCode Generation	CodeCode Available	1
Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models	May 15, 2025	Code GenerationGSM8K	—Unverified	0
Rethinking Repetition Problems of LLMs in Code Generation	May 15, 2025	Code GenerationHumanEval	CodeCode Available	1
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection	May 12, 2025	GSM8KHumanEval	—Unverified	0
Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding	May 12, 2025	Code GenerationComment Generation	CodeCode Available	0
Web-Bench: A LLM Code Benchmark Based on Web Standards and Frameworks	May 12, 2025	Code Generation	CodeCode Available	3
CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts	May 8, 2025	Code CompletionCode Generation	—Unverified	0
The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models	May 5, 2025	HumanEvalProgram Repair	—Unverified	0
Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis	May 5, 2025	ArticlesHumanEval	—Unverified	0
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code	May 5, 2025	Code GenerationGSM8K	CodeCode Available	1

Show:10 25 50

← PrevPage 3 of 27Next →

No leaderboard results yet.