SOTAVerified|Agents Browse Leaderboard About Blog

HumanEval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 126–150 of 264 papers

Title	Date	Tasks	Status	Hype
CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code Generation	Aug 17, 2023	Code GenerationFew-Shot Learning	—Unverified	0
CodeFuse-13B: A Pretrained Multi-lingual Code Large Language Model	Oct 10, 2023	Code GenerationCode Translation	—Unverified	0
CodeMirage: Hallucinations in Code Generated by Large Language Models	Aug 14, 2024	Code GenerationHallucination	—Unverified	0
CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts	May 8, 2025	Code CompletionCode Generation	—Unverified	0
Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency	Jun 18, 2024	HumanEvalmbpp	—Unverified	0
CodeShell Technical Report	Mar 23, 2024	8kHumanEval	—Unverified	0
CodeTree: Agent-guided Tree Search for Code Generation with Large Language Models	Nov 7, 2024	Code GenerationDecision Making	—Unverified	0
Concept Distillation from Strong to Weak Models via Hypotheses-to-Theories Prompting	Aug 18, 2024	HumanEvalMathematical Reasoning	—Unverified	0
Context-Augmented Code Generation Using Programming Knowledge Graphs	Oct 9, 2024	Code GenerationHumanEval	—Unverified	0
CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks	Sep 13, 2024	ARCCode Generation	—Unverified	0
CREST: Effectively Compacting a Datastore For Retrieval-Based Speculative Decoding	Aug 8, 2024	HumanEvalRetrieval	—Unverified	0
CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution	Aug 23, 2024	Code GenerationHumanEval	—Unverified	0
Dafny as Verification-Aware Intermediate Language for Code Generation	Jan 10, 2025	Code GenerationHumanEval	—Unverified	0
Decoding Data Quality via Synthetic Corruptions: Embedding-guided Pruning of Code Data	Dec 5, 2023	Code GenerationHumanEval	—Unverified	0
Demo-Craft: Using In-Context Learning to Improve Code Generation in Large Language Models	Oct 30, 2024	Code GenerationHumanEval	—Unverified	0
Discrete Flow Matching	Jul 22, 2024	HumanEvalmbpp	—Unverified	0
Divide-and-Conquer Meets Consensus: Unleashing the Power of Functions in Code Generation	May 30, 2024	Code GenerationHumanEval	—Unverified	0
Does Few-Shot Learning Help LLM Performance in Code Synthesis?	Dec 3, 2024	Code GenerationFew-Shot Learning	—Unverified	0
Does your data spark joy? Performance gains from domain upsampling at the end of training	Jun 5, 2024	GSM8KHumanEval	—Unverified	0
DOMAINEVAL: An Auto-Constructed Benchmark for Multi-Domain Code Generation	Aug 23, 2024	Code GenerationHumanEval	—Unverified	0
Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference	Dec 25, 2024	CPUGPU	—Unverified	0
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs	Nov 20, 2024	Code GenerationHumanEval	—Unverified	0
Dynamic Scaling of Unit Tests for Code Reward Modeling	Jan 2, 2025	Code GenerationHumanEval	—Unverified	0
Structured Chain-of-Thought Prompting for Code Generation	May 11, 2023	Code GenerationHumanEval	—Unverified	0
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach	May 29, 2025	Code GenerationHumanEval	—Unverified	0

Show:10 25 50

← PrevPage 6 of 11Next →

No leaderboard results yet.