SOTAVerified|Agents Browse Leaderboard About

Program Repair

Task of teaching ML models to modify an existing program to fix a bug in a given code.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 21–30 of 132 papers

Title	Date	Tasks	Status	Hype
o3-mini vs DeepSeek-R1: Which One is Safer?	Jan 30, 2025	Code GenerationProgram Repair	CodeCode Available	1
Evaluating Agent-based Program Repair at Google	Jan 13, 2025	Code GenerationProgram Repair	—Unverified	0
The Impact of Input Order Bias on Large Language Models for Software Fault Localization	Dec 25, 2024	Fault localizationMemorization	—Unverified	0
Counterexample Guided Program Repair Using Zero-Shot Learning and MaxSAT-based Fault Localization	Dec 19, 2024	Fault localizationProgram Repair	—Unverified	0
Integrating Various Software Artifacts for Better LLM-based Bug Localization and Program Repair	Dec 5, 2024	Fault localizationProgram Repair	CodeCode Available	1
Planning-Driven Programming: A Large Language Model Programming Workflow	Nov 21, 2024	Code GenerationHumanEval	CodeCode Available	1
A Comprehensive Survey of AI-Driven Advancements and Techniques in Automated Program Repair and Code Generation	Nov 12, 2024	Bug fixingCode Generation	—Unverified	0
MdEval: Massively Multilingual Code Debugging	Nov 4, 2024	Program Repair	—Unverified	0
Semantic-guided Search for Efficient Program Repair with Large Language Models	Oct 22, 2024	GPUHumanEval	—Unverified	0
Collu-Bench: A Benchmark for Predicting Language Model Hallucinations in Code	Oct 13, 2024	Code GenerationHallucination	—Unverified	0

Show:10 25 50

← PrevPage 3 of 14Next →

All datasets DeepFix GitHub-Python HumanEvalPack TFix's Code Patches Data

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DrRepair + BIFI	Average Success Rate	71.7	—	Unverified
2	DrRepair	Average Success Rate	68.2	—	Unverified
3	SampleFix	Average Success Rate	45.3	—	Unverified
4	RLAssist	Average Success Rate	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer + BIFI	Accuracy (%)	90.5	—	Unverified
2	Transformer	Accuracy (%)	62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MGDebugger (DeepSeek-Coder-V2-Lite)	Pass@1	97.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TFix	Error Removal	678	—	Unverified