SOTAVerified|Agents Browse Leaderboard About

HumanEval

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 226–250 of 264 papers

Title	Date	Tasks	Status	Hype	Score
Plan for Speed -- Dilated Scheduling for Masked Diffusion Language Models	Jun 23, 2025	Code CompletionGSM8K	—Unverified	0	0
PLUM: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases	Jun 11, 2024	Code GenerationHumanEval	—Unverified	0	0
Prior Prompt Engineering for Reinforcement Fine-Tuning	May 20, 2025	HumanEvalPrompt Engineering	—Unverified	0	0
Qiskit Code Assistant: Training LLMs for generating Quantum Computing Code	May 29, 2024	HumanEval	—Unverified	0	0
Qiskit HumanEval: An Evaluation Benchmark For Quantum Code Generative Models	Jun 20, 2024	Code GenerationHumanEval	—Unverified	0	0
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks	Jan 20, 2025	Code GenerationHumanEval	—Unverified	0	0
Reactor Mk.1 performances: MMLU, HumanEval and BBH test results	Jun 15, 2024	BenchmarkingHumanEval	—Unverified	0	0
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment	Feb 5, 2025	GSM8KHumanEval	—Unverified	0	0
Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models	May 15, 2025	Code GenerationGSM8K	—Unverified	0	0
RethinkMCTS: Refining Erroneous Thoughts in Monte Carlo Tree Search for Code Generation	Sep 15, 2024	Code GenerationHumanEval	—Unverified	0	0
SACL: Understanding and Combating Textual Bias in Code Retrieval with Semantic-Augmented Reranking and Localization	Jun 25, 2025	Code GenerationHumanEval	—Unverified	0	0
Scattered Forest Search: Smarter Code Space Exploration with LLMs	Oct 22, 2024	Code GenerationDiversity	—Unverified	0	0
SecBench: A Comprehensive Multi-Dimensional Benchmarking Dataset for LLMs in Cybersecurity	Dec 30, 2024	BenchmarkingCode Generation	—Unverified	0	0
Selection of Prompt Engineering Techniques for Code Generation through Predicting Code Complexity	Sep 24, 2024	Code GenerationContrastive Learning	—Unverified	0	0
SelfEvolve: A Code Evolution Framework via Large Language Models	Jun 5, 2023	Code GenerationHumanEval	—Unverified	0	0
Self-Evolving Multi-Agent Collaboration Networks for Software Development	Oct 22, 2024	HumanEval	—Unverified	0	0
Self-Explained Keywords Empower Large Language Models for Code Generation	Oct 21, 2024	Code GenerationHumanEval	—Unverified	0	0
Semantic-guided Search for Efficient Program Repair with Large Language Models	Oct 22, 2024	GPUHumanEval	—Unverified	0	0
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models	Jul 30, 2024	BenchmarkingCode Completion	—Unverified	0	0
SpecDec++: Boosting Speculative Decoding via Adaptive Candidate Lengths	May 30, 2024	GSM8KHumanEval	—Unverified	0	0
Stochastic Code Generation	Apr 14, 2023	Code GenerationDecoder	—Unverified	0	0
Sustainable LLM Inference for Edge AI: Evaluating Quantized LLMs for Energy Efficiency, Output Accuracy, and Inference Latency	Apr 4, 2025	BenchmarkingGSM8K	—Unverified	0	0
SwiftEval: Developing a Language-Specific Benchmark for LLM-generated Code Evaluation	May 30, 2025	Code GenerationHumanEval	—Unverified	0	0
Synthesize, Partition, then Adapt: Eliciting Diverse Samples from Foundation Models	Nov 11, 2024	Code GenerationHumanEval	—Unverified	0	0
Test-Driven Development for Code Generation	Feb 21, 2024	Code GenerationHumanEval	—Unverified	0	0

Show:10 25 50

← PrevPage 10 of 11Next →

No leaderboard results yet.