Program Repair

Task of teaching ML models to modify an existing program to fix a bug in a given code.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 132 papers

Title	Date	Tasks	Status	Hype
CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks	Jul 3, 2025	BenchmarkingCode Generation	—Unverified	0
T^3: Multi-level Tree-based Automatic Program Repair with Large Language Models	Jun 26, 2025	Program Repair	—Unverified	0
Understanding Software Engineering Agents: A Study of Thought-Action-Result Trajectories	Jun 23, 2025	Large Language ModelProgram Repair	—Unverified	0
Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems	Jun 20, 2025	Program Repair	—Unverified	0
SemAgent: A Semantics Aware Program Repair Agent	Jun 19, 2025	Program Repair	—Unverified	0
A Multi-Dataset Evaluation of Models for Automated Vulnerability Repair	Jun 5, 2025	Program RepairVulnerability Detection	—Unverified	0
An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks	May 27, 2025	Code GenerationCode Summarization	—Unverified	0
Gradient-Based Program Repair: Fixing Bugs in Continuous Program Spaces	May 23, 2025	Program Repair	—Unverified	0
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data	May 12, 2025	Program RepairSynthetic Data Generation	—Unverified	0
Towards Effectively Leveraging Execution Traces for Program Repair with Code LLMs	May 7, 2025	Program Repair	—Unverified	0
The Art of Repair: Optimizing Iterative Program Repair with Instruction-Tuned Models	May 5, 2025	HumanEvalProgram Repair	—Unverified	0
SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs	Apr 20, 2025	Program Repair	—Unverified	0
Using ML filters to help automated vulnerability repairs: when it helps and when it doesn't	Apr 9, 2025	Program RepairVulnerability Detection	—Unverified	0
CoSIL: Software Issue Localization via LLM-Driven Code Repository Graph Searching	Mar 28, 2025	Program Repair	CodeCode Available	1
Attention Pruning: Automated Fairness Repair of Language Models via Surrogate Simulated Annealing	Mar 20, 2025	FairnessProgram Repair	—Unverified	0
Evaluating the Generalizability of LLMs in Automated Program Repair	Mar 12, 2025	Program RepairPrompt Engineering	—Unverified	0
Less is More: Adaptive Program Repair with Bug Localization and Preference Learning	Mar 9, 2025	Bug fixingProgram Repair	CodeCode Available	0
Where's the Bug? Attention Probing for Scalable Fault Localization	Feb 19, 2025	Fault localizationProgram Repair	—Unverified	0
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks	Feb 10, 2025	Code GenerationProgram Repair	—Unverified	0
Agentic Bug Reproduction for Effective Automated Program Repair at Google	Feb 3, 2025	Large Language ModelProgram Repair	—Unverified	0
o3-mini vs DeepSeek-R1: Which One is Safer?	Jan 30, 2025	Code GenerationProgram Repair	CodeCode Available	1
Evaluating Agent-based Program Repair at Google	Jan 13, 2025	Code GenerationProgram Repair	—Unverified	0
The Impact of Input Order Bias on Large Language Models for Software Fault Localization	Dec 25, 2024	Fault localizationMemorization	—Unverified	0
Counterexample Guided Program Repair Using Zero-Shot Learning and MaxSAT-based Fault Localization	Dec 19, 2024	Fault localizationProgram Repair	—Unverified	0
Integrating Various Software Artifacts for Better LLM-based Bug Localization and Program Repair	Dec 5, 2024	Fault localizationProgram Repair	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 6Next →

All datasets DeepFix GitHub-Python HumanEvalPack TFix's Code Patches Data

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DrRepair + BIFI	Average Success Rate	71.7	—	Unverified
2	DrRepair	Average Success Rate	68.2	—	Unverified
3	SampleFix	Average Success Rate	45.3	—	Unverified
4	RLAssist	Average Success Rate	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer + BIFI	Accuracy (%)	90.5	—	Unverified
2	Transformer	Accuracy (%)	62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MGDebugger (DeepSeek-Coder-V2-Lite)	Pass@1	97.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TFix	Error Removal	678	—	Unverified