Program Repair

Task of teaching ML models to modify an existing program to fix a bug in a given code.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 101–132 of 132 papers

Title	Date	Tasks	Status
An Exploratory Literature Study on Sharing and Energy Use of Language Models for Source Code	Jul 5, 2023	Program Repair	—Unverified
To Err is Machine: Vulnerability Detection Challenges LLM Reasoning	Mar 25, 2024	Code GenerationIn-Context Learning	—Unverified
A Multi-Dataset Evaluation of Models for Automated Vulnerability Repair	Jun 5, 2025	Program RepairVulnerability Detection	—Unverified
Repairing Bugs in Python Assignments Using Large Language Models	Sep 29, 2022	ChunkingLanguage Modeling	—Unverified
Repair Is Nearly Generation: Multilingual Program Repair with LLMs	Aug 24, 2022	Language ModellingLarge Language Model	—Unverified
Agentic Bug Reproduction for Effective Automated Program Repair at Google	Feb 3, 2025	Large Language ModelProgram Repair	—Unverified
Revisiting the Plastic Surgery Hypothesis via Large Language Models	Mar 18, 2023	Program Repair	—Unverified
Using ML filters to help automated vulnerability repairs: when it helps and when it doesn't	Apr 9, 2025	Program RepairVulnerability Detection	—Unverified
RunBugRun -- An Executable Dataset for Automated Program Repair	Apr 3, 2023	Program Repair	—Unverified
SampleFix: Learning to Generate Functionally Diverse Fixes	Jun 24, 2019	DiversityProgram Repair	—Unverified
SCELMo: Source Code Embeddings from Language Models	Apr 28, 2020	Code SearchProgram Repair	—Unverified
Where's the Bug? Attention Probing for Scalable Fault Localization	Feb 19, 2025	Fault localizationProgram Repair	—Unverified
SemAgent: A Semantics Aware Program Repair Agent	Jun 19, 2025	Program Repair	—Unverified
CORE: Benchmarking LLMs Code Reasoning Capabilities through Static Analysis Tasks	Jul 3, 2025	BenchmarkingCode Generation	—Unverified
Counterexample Guided Program Repair Using Zero-Shot Learning and MaxSAT-based Fault Localization	Dec 19, 2024	Fault localizationProgram Repair	—Unverified
Semantic-guided Search for Efficient Program Repair with Large Language Models	Oct 22, 2024	GPUHumanEval	—Unverified
Conversational Automated Program Repair	Jan 30, 2023	Program Repair	—Unverified
DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models	Feb 19, 2024	Code RepairFew-Shot Learning	—Unverified
DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons	May 19, 2021	Program Repair	—Unverified
AdaptivePaste: Code Adaptation through Learning Semantics-aware Variable Usage Representations	May 23, 2022	Program Repair	—Unverified
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair	Sep 12, 2023	Language ModellingProgram Repair	—Unverified
Detect-Localize-Repair: A Unified Framework for Learning to Debug with CodeT5	Nov 27, 2022	Bug fixingLanguage Modeling	—Unverified
Dissecting the SWE-Bench Leaderboards: Profiling Submitters and Architectures of LLM- and Agent-Based Repair Systems	Jun 20, 2025	Program Repair	—Unverified
SmartPaste: Learning to Adapt Source Code	May 22, 2017	Machine TranslationProgram Repair	—Unverified
Dynamic Neural Program Embeddings for Program Repair	Jan 1, 2018	Code CompletionFault localization	—Unverified
Enabling Automatic Repair of Source Code Vulnerabilities Using Data-Driven Methods	Feb 7, 2022	Bug fixingProgram Repair	—Unverified
ENCORE: Ensemble Learning using Convolution Neural Machine Translation for Automatic Program Repair	Jun 20, 2019	Ensemble LearningMachine Translation	—Unverified
ConDefects: A New Dataset to Address the Data Leakage Concern for LLM-based Fault Localization and Program Repair	Oct 25, 2023	BenchmarkingFault localization	—Unverified
Enhancing Automated Program Repair with Solution Design	Aug 22, 2024	Program Repair	—Unverified
Evaluating Agent-based Program Repair at Google	Jan 13, 2025	Code GenerationProgram Repair	—Unverified
SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs	Apr 20, 2025	Program Repair	—Unverified
Evaluating the Generalizability of LLMs in Automated Program Repair	Mar 12, 2025	Program RepairPrompt Engineering	—Unverified

Show:10 25 50

← PrevPage 3 of 3Next →

All datasets DeepFix GitHub-Python HumanEvalPack TFix's Code Patches Data

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	DrRepair + BIFI	Average Success Rate	71.7	—	Unverified
2	DrRepair	Average Success Rate	68.2	—	Unverified
3	SampleFix	Average Success Rate	45.3	—	Unverified
4	RLAssist	Average Success Rate	26.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Transformer + BIFI	Accuracy (%)	90.5	—	Unverified
2	Transformer	Accuracy (%)	62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MGDebugger (DeepSeek-Coder-V2-Lite)	Pass@1	97.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TFix	Error Removal	678	—	Unverified