mbpp

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 51–100 of 129 papers

Title	Date	Tasks	Status	Hype
Rethinking Repetition Problems of LLMs in Code Generation	May 15, 2025	Code GenerationHumanEval	CodeCode Available	1
RLTF: Reinforcement Learning from Unit Test Feedback	Jul 10, 2023	Code Generationmbpp	CodeCode Available	1
EffiLearner: Enhancing Efficiency of Generated Code via Self-Optimization	May 24, 2024	Code GenerationHumanEval	CodeCode Available	1
Unchosen Experts Can Contribute Too: Unleashing MoE Models' Power by Self-Contrast	May 23, 2024	Computational EfficiencyGSM8K	CodeCode Available	1
Unsupervised Evaluation of Code LLMs with Round-Trip Correctness	Feb 13, 2024	HumanEvalmbpp	CodeCode Available	1
XFT: Unlocking the Power of Code Instruction Tuning by Simply Merging Upcycled Mixture-of-Experts	Apr 23, 2024	HumanEvalmbpp	CodeCode Available	1
Discrete Flow Matching	Jul 22, 2024	HumanEvalmbpp	—Unverified	0
DSTC: Direct Preference Learning with Only Self-Generated Tests and Code to Improve Code LMs	Nov 20, 2024	Code GenerationHumanEval	—Unverified	0
DynaCode: A Dynamic Complexity-Aware Code Benchmark for Evaluating Large Language Models in Code Generation	Mar 13, 2025	Code Generationmbpp	—Unverified	0
Structured Chain-of-Thought Prompting for Code Generation	May 11, 2023	Code GenerationHumanEval	—Unverified	0
Enhancing LLM-Based Code Generation with Complexity Metrics: A Feedback-Driven Approach	May 29, 2025	Code GenerationHumanEval	—Unverified	0
Enhancing Reasoning Capabilities of Small Language Models with Blueprints and Prompt Template Search	Jun 10, 2025	GSM8KMath	—Unverified	0
Evaluating LLM-driven User-Intent Formalization for Verification-Aware Languages	Jun 14, 2024	Code Generationmbpp	—Unverified	0
Selection of Prompt Engineering Techniques for Code Generation through Predicting Code Complexity	Sep 24, 2024	Code GenerationContrastive Learning	—Unverified	0
Grammar-Based Code Representation: Is It a Worthy Pursuit for LLMs?	Mar 7, 2025	Code GenerationHumanEval	—Unverified	0
Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation	Jun 9, 2025	GSM8KHumanEval	—Unverified	0
Self-Explained Keywords Empower Large Language Models for Code Generation	Oct 21, 2024	Code GenerationHumanEval	—Unverified	0
What I cannot execute, I do not understand: Training and Evaluating LLMs on Program Execution Traces	Feb 10, 2025	Code Generationmbpp	—Unverified	0
Interactive Code Generation via Test-Driven User-Intent Formalization	Aug 11, 2022	Code GenerationHumanEval	—Unverified	0
Code-Optimise: Self-Generated Preference Data for Correctness and Efficiency	Jun 18, 2024	HumanEvalmbpp	—Unverified	0
Interval-censored Hawkes processes	Apr 16, 2021	mbppPoint Processes	—Unverified	0
Synthesize, Partition, then Adapt: Eliciting Diverse Samples from Foundation Models	Nov 11, 2024	Code GenerationHumanEval	—Unverified	0
Isolating Language-Coding from Problem-Solving: Benchmarking LLMs with PseudoEval	Feb 26, 2025	BenchmarkingCode Generation	—Unverified	0
CodeMixBench: Evaluating Large Language Models on Code Generation with Code-Mixed Prompts	May 8, 2025	Code CompletionCode Generation	—Unverified	0
Large Language Model-Aware In-Context Learning for Code Generation	Oct 15, 2023	Code GenerationContrastive Learning	—Unverified	0
CodeMirage: Hallucinations in Code Generated by Large Language Models	Aug 14, 2024	Code GenerationHallucination	—Unverified	0
Test-Driven Development for Code Generation	Feb 21, 2024	Code GenerationHumanEval	—Unverified	0
Learning to Reason via Self-Iterative Process Feedback for Small Language Models	Dec 11, 2024	Domain GeneralizationGSM8K	—Unverified	0
Textbooks Are All You Need	Jun 20, 2023	AllCode Generation	—Unverified	0
LiveCodeBench: Holistic and Contamination Free Evaluation of Large Language Models for Code	Mar 12, 2024	Code GenerationHumanEval	—Unverified	0
LLaDA 1.5: Variance-Reduced Preference Optimization for Large Language Diffusion Models	May 25, 2025	GSM8KHumanEval	—Unverified	0
Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer	Aug 19, 2024	Code GenerationCross-Lingual Transfer	—Unverified	0
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation	Oct 16, 2023	Code GenerationHumanEval	—Unverified	0
USCD: Improving Code Generation of LLMs by Uncertainty-Aware Selective Contrastive Decoding	Sep 9, 2024	Code GenerationHumanEval	—Unverified	0
The Program Testing Ability of Large Language Models for Code	Oct 9, 2023	HumanEvalmbpp	—Unverified	0
The Stack: 3 TB of permissively licensed source code	Nov 20, 2022	HumanEvalmbpp	—Unverified	0
Multi-step Problem Solving Through a Verifier: An Empirical Analysis on Model-induced Process Supervision	Feb 5, 2024	GSM8KMath	—Unverified	0
Brevity is the soul of wit: Pruning long files for code generation	Jun 29, 2024	Code GenerationHumanEval	—Unverified	0
NExT: Teaching Large Language Models to Reason about Code Execution	Apr 23, 2024	HumanEvalmbpp	—Unverified	0
Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement	Dec 30, 2024	Code GenerationHumanEval	—Unverified	0
OpenCodeInstruct: A Large-scale Instruction Tuning Dataset for Code LLMs	Apr 5, 2025	Code GenerationHumanEval	—Unverified	0
PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs	Jan 8, 2024	Code GenerationDiversity	—Unverified	0
AceCoder: Utilizing Existing Code to Enhance Code Generation	Mar 31, 2023	Code Generationmbpp	—Unverified	0
Plan for Speed -- Dilated Scheduling for Masked Diffusion Language Models	Jun 23, 2025	Code CompletionGSM8K	—Unverified	0
Type-Constrained Code Generation with Language Models	Apr 12, 2025	Code GenerationHumanEval	—Unverified	0
PLUM: Improving Code LMs with Execution-Guided On-Policy Preference Learning Driven By Synthetic Test Cases	Jun 11, 2024	Code GenerationHumanEval	—Unverified	0
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents	Mar 23, 2024	Code GenerationHumanEval	—Unverified	0
Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting	May 25, 2024	Contrastive Learningmbpp	—Unverified	0
Prompt Baking	Sep 4, 2024	ARCGSM8K	—Unverified	0
Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning	Jun 20, 2024	GSM8KHeuristic Search	—Unverified	0

Show:10 25 50

← PrevPage 2 of 3Next →

No leaderboard results yet.