Code Generation

Code Generation is an important field to predict explicit code or program structure from multimodal data sources such as incomplete code, programs in another programming language, natural language descriptions or execution examples. Code Generation tools can assist the development of automatic programming tools to improve programming productivity.

Source: Deep Learning for Source Code Modeling and Generation

Image source: Measuring Coding Challenge Competence With APPS

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1101–1150 of 1697 papers

Title	Date	Tasks	Status
Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation	Feb 18, 2024	Code Generation	—Unverified
Model Card and Evaluations for Claude Models	Jul 11, 2023	Arithmetic ReasoningBug fixing	—Unverified
Model Cascading for Code: A Cascaded Black-Box Multi-Model Framework for Cost-Efficient Code Completion with Self-Testing	May 24, 2024	Code CompletionCode Generation	—Unverified
Model-Driven Engineering Method to Support the Formalization of Machine Learning using SysML	Jul 10, 2023	Code Generation	—Unverified
Unveiling the potential of large language models in generating semantic and cross-language clones	Sep 12, 2023	BenchmarkingCode Generation	—Unverified
ModiGen: A Large Language Model-Based Workflow for Multi-Task Modelica Code Generation	Mar 24, 2025	Code GenerationLanguage Modeling	—Unverified
CAD-Coder:Text-Guided CAD Files Code Generation	May 13, 2025	Code Generation	—Unverified
MojoBench: Language Modeling and Benchmarks for Mojo	Oct 23, 2024	Code GenerationHumanEval	—Unverified
Building AI Agents for Autonomous Clouds: Challenges and Design Principles	Jul 16, 2024	Code GenerationFault localization	—Unverified
Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models	Jun 6, 2024	Arithmetic ReasoningCode Generation	—Unverified
Use Property-Based Testing to Bridge LLM Code Generation and Validation	Jun 23, 2025	Code Generationtest driven development	—Unverified
M-Ped: Multi-Prompt Ensemble Decoding for Large Language Models	Dec 24, 2024	Code GenerationMachine Translation	—Unverified
Bring Your Own Codegen to Deep Learning Compiler	May 3, 2021	Code GenerationDeep Learning	—Unverified
Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer	Aug 19, 2024	Code GenerationCross-Lingual Transfer	—Unverified
Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation	Oct 16, 2023	Code GenerationHumanEval	—Unverified
Brevity is the soul of wit: Pruning long files for code generation	Jun 29, 2024	Code GenerationHumanEval	—Unverified
Multilingual Multimodal Software Developer for Code Generation	Jul 11, 2025	Code GenerationInstruction Following	—Unverified
Multi-Method Self-Training: Improving Code Generation With Text, And Vice Versa	Jul 20, 2023	Code GenerationPrompt Engineering	—Unverified
User Centric Evaluation of Code Generation Tools	Feb 5, 2024	Code Generation	—Unverified
Multi-target Backdoor Attacks for Code Pre-trained Models	Jun 14, 2023	Code GenerationRepresentation Learning	—Unverified
Breaking the Programming Language Barrier: Multilingual Prompting to Empower Non-Native English Learners	Dec 17, 2024	Code Generation	—Unverified
Mutation-based Consistency Testing for Evaluating the Code Understanding Capability of LLMs	Jan 11, 2024	Code GenerationHumanEval	—Unverified
NAACL2025 Tutorial: Adaptation of Large Language Models	Apr 4, 2025	Code GenerationModel Editing	—Unverified
NARRepair: Non-Autoregressive Code Generation Model for Automatic Program Repair	Jun 24, 2024	Code GenerationProgram Repair	—Unverified
Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM	Mar 12, 2024	Arithmetic ReasoningCode Generation	—Unverified
Natural Language Generation and Understanding of Big Code for AI-Assisted Programming: A Review	Jul 4, 2023	Clone DetectionCode Completion	—Unverified
Natural Language Outlines for Code: Literate Programming in the LLM Era	Aug 9, 2024	Code GenerationCode Search	—Unverified
Natural Language Programing with Automatic Code Generation towards Solving Addition-Subtraction Word Problems	Dec 1, 2017	Code Generation	—Unverified
Natural Language to Code Generation in Interactive Data Science Notebooks	Dec 19, 2022	Code GenerationDiversity	—Unverified
Boosting Universal LLM Reward Design through the Heuristic Reward Observation Space Evolution	Apr 10, 2025	Code GenerationReinforcement Learning (RL)	—Unverified
Boost, Disentangle, and Customize: A Robust System2-to-System1 Pipeline for Code Generation	Feb 18, 2025	Code Generation	—Unverified
Jointly Learning Semantic Parser and Natural Language Generator via Dual Information Maximization	Jun 3, 2019	Code GenerationDialogue Management	—Unverified
Neural Machine Translation for Code Generation	May 22, 2023	Code CompletionCode Generation	—Unverified
PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLMs	Jan 8, 2024	Code GenerationDiversity	—Unverified
BizBench: A Quantitative Reasoning Benchmark for Business and Finance	Nov 11, 2023	Code GenerationProgram Synthesis	—Unverified
Neural Semantic Parsing	Jul 1, 2018	Code GenerationInstruction Following	—Unverified
Neuron Patching: Semantic-based Neuron-level Language Model Repair for Code Generation	Dec 8, 2023	Code GenerationLanguage Modeling	—Unverified
Next Steps in LLM-Supported Java Verification	Feb 3, 2025	Code Generation	—Unverified
BISCUIT: Scaffolding LLM-Generated Code with Ephemeral UIs in Computational Notebooks	Apr 10, 2024	Code GenerationPrompt Engineering	—Unverified
NLPerturbator: Studying the Robustness of Code LLMs to Natural Language Variations	Jun 28, 2024	Code Generation	—Unverified
Not All LLM Reasoners Are Created Equal	Oct 2, 2024	AllCode Generation	—Unverified
Nova: Generative Language Models for Assembly Code with Hierarchical Attention and Contrastive Learning	Nov 22, 2023	Code GenerationCode Translation	—Unverified
BioAgents: Democratizing Bioinformatics Analysis with Multi-Agent Systems	Jan 10, 2025	Code GenerationRAG	—Unverified
BigDocs: An Open and Permissively-Licensed Dataset for Training Multimodal Models on Document and Code Tasks	Dec 5, 2024	Code Generationdocument understanding	—Unverified
Bias Testing and Mitigation in LLM-based Code Generation	Sep 3, 2023	Code GenerationFairness	—Unverified
Sketch2code: Generating a website from a paper mockup	May 9, 2019	Code GenerationDeep Learning	—Unverified
Ocassionally Secure: A Comparative Analysis of Code Generation Assistants	Feb 1, 2024	Code Generation	—Unverified
Beyond Trusting Trust: Multi-Model Validation for Robust Code Generation	Feb 22, 2025	Code Generation	—Unverified
Beyond the Sum: Unlocking AI Agents Potential Through Market Forces	Dec 19, 2024	Code Generation	—Unverified
Zero-Shot RTL Code Generation with Attention Sink Augmented Large Language Models	Jan 12, 2024	Code Generation	—Unverified

Show:10 25 50

← PrevPage 23 of 34Next →

All datasets MBPP APPS CoNaLa Django WikiSQL RES-Q CodeContests HumanEval PECC WebApp1K-React CoNaLa-Ext WebApp1k-Duo-React

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	EG-CFG (DeepSeek-V3-0324)	Accuracy	96.6	—	Unverified
2	QualityFlow (Sonnet-3.5)	Accuracy	94.2	—	Unverified
3	o1-mini + MapCoder (Hamming.ai)	Accuracy	93.2	—	Unverified
4	MGDebugger (DeepSeek-V3-0324)	Accuracy	92.4	—	Unverified
5	GPT-4 + AgentCoder	Accuracy	91.8	—	Unverified
6	CodeSim (GPT4o)	Accuracy	90.7	—	Unverified
7	Jiutian-大模型	Accuracy	90	—	Unverified
8	GPT-3.5 Turbo (ChatGPT) + AgentCoder	Accuracy	89.9	—	Unverified
9	MapCoder (GPT-4o)	Accuracy	89.7	—	Unverified
10	GPT-4 (ChatGPT Plus)	Accuracy	87.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LPW (GPT-4o)	Introductory Pass@1	87.2	—	Unverified
2	MoTCoder-32B-V1.5	Introductory Pass@1	68.44	—	Unverified
3	MoTCoder-7B-V1.5	Introductory Pass@1	54.26	—	Unverified
4	code-davinci-002 175B (CodeT)	Introductory Pass@1	47.3	—	Unverified
5	deepseek-ai/deepseek-coder-6.7b-instruct	Introductory Pass@1	33.8	—	Unverified
6	code-davinci-002 175B	Introductory Pass@1	31.92	—	Unverified
7	CodeChain+WizardCoder-15b	Introductory Pass@1	29.3	—	Unverified
8	WizardCoder-15b	Introductory Pass@1	26.29	—	Unverified
9	CodeSim (GPT4)	Introductory Pass@1	26.04	—	Unverified
10	AlphaCode 1B Filtered from 50000	Competition Pass@any	22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PanGu-Coder-FT-I	BLEU	44.32	—	Unverified
2	RoBERTaMarian	BLEU	35.74	—	Unverified
3	MarianCG	BLEU	34.43	—	Unverified
4	TranX + BERT w/mined	BLEU	34.2	—	Unverified
5	BERT + TAE	BLEU	33.41	—	Unverified
6	BERTMarian	BLEU	32.46	—	Unverified
7	External Knowledge With API + Reranking	BLEU	32.26	—	Unverified
8	External Knowledge With API	BLEU	30.69	—	Unverified
9	BART W/ Mined	BLEU	30.55	—	Unverified
10	ELECTRAMarian	BLEU	30.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MarianCG	Accuracy	81.83	—	Unverified
2	BERT + TAE	Accuracy	81.03	—	Unverified
3	TranX + BERT w/mined	Accuracy	81.03	—	Unverified
4	Reranker	Accuracy	80.2	—	Unverified
5	LUKEMarian	Accuracy	78.5	—	Unverified
6	RoBERTaMarian	Accuracy	77.95	—	Unverified
7	BERTMarian	Accuracy	76.68	—	Unverified
8	Tranx	Accuracy	73.7	—	Unverified
9	ELECTRAMarian	Accuracy	65.32	—	Unverified
10	lpn (Ling et al., 2016)	Accuracy	62.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NL2SQL-RULE	Execution Accuracy	89.2	—	Unverified
2	TypeSQL+TC (Yu et al., 2018)+	Execution Accuracy	82.6	—	Unverified
3	Tranx	Execution Accuracy	78.6	—	Unverified
4	STAMP+RL (Sun et al., 2018)+	Execution Accuracy	74.6	—	Unverified
5	STAMP (Sun et al., 2018)+	Execution Accuracy	74.4	—	Unverified
6	TypeSQL (Yu et al., 2018)	Execution Accuracy	73.5	—	Unverified
7	PT-MAML (Huang et al., 2018)	Execution Accuracy	68	—	Unverified
8	Bidirectional Attention for SQL Generation	Execution Accuracy	62.5	—	Unverified
9	Seq2SQL (Zhong et al., 2017)	Execution Accuracy	59.4	—	Unverified
10	Seq2Seq (Zhong et al., 2017)	Execution Accuracy	35.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QurrentOS-coder + Claude 3.5 Sonnet	pass@1	58	—	Unverified
2	QurrentOS-coder + GPT-4o	pass@1	46	—	Unverified
3	QurrentOS-coder + GPT-4 Turbo	pass@1	37	—	Unverified
4	QurrentOS-coder + Claude 3 Opus	pass@1	36	—	Unverified
5	QurrentOS-coder + Gemini 1.5 Pro	pass@1	30	—	Unverified
6	QurrentOS-coder + GPT-4	pass@1	30	—	Unverified
7	QurrentOS-coder + DeepSeek-Coder-V2	pass@1	29	—	Unverified
8	QurrentOS-coder + Llama 3 70b	pass@1	20	—	Unverified
9	QurrentOS-coder + Qwen-72B-Instruct	pass@1	18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EG-CFG (DeepSeek-V3-0324)	Test Set pass@1	58.18	—	Unverified
2	LPW (GPT-4o)	Test Set pass@1	34.7	—	Unverified
3	MapCoder (GPT-4)	Test Set pass@1	28.5	—	Unverified
4	CodeSim (GPT4)	Test Set pass@1	28.4	—	Unverified
5	MoTCoder-15B	Test Set pass@1	26.34	—	Unverified
6	MoTCoder-7B-v1.5	Test Set pass@1	20.77	—	Unverified
7	CodeChain + WizardCoder-15B	Test Set pass@1	2.35	—	Unverified
8	WizardCoder-15B	Test Set pass@1	1.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepSeek-R1 (MGDebugger)	Pass@1	100	—	Unverified
2	LLaMA 3	Pass@1	99.4	—	Unverified
3	QualityFlow (Sonnet-3.5)	Pass@1	98.8	—	Unverified
4	Phi-2	Pass@1	98.2	—	Unverified
5	EG-CFG (DeepSeek-V3-0324)	Pass@1	96.95	—	Unverified
6	Mistral 7B	Pass@1	93.9	—	Unverified
7	Claude Sonnet 3.5	Pass@1	90.85	—	Unverified
8	L2MAC (GPT-4)	Pass@1	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Claude 3 Haiku	Pass@3	27.67	—	Unverified
2	GPT-3.5 Turbo	Pass@3	23.75	—	Unverified
3	codechat-bison	Pass@3	11.39	—	Unverified
4	chat-bison	Pass@3	8.48	—	Unverified
5	Mixtral-8x7B-Instruct	Pass@3	8.35	—	Unverified
6	Phi-3-mini-128k-instruct	Pass@3	7.18	—	Unverified
7	WizardLM-2-7B	Pass@3	3.72	—	Unverified
8	Llama-3-8B-Instruct	Pass@3	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o1-preview	pass@1	0.95	—	Unverified
2	o1-mini	pass@1	0.94	—	Unverified
3	gpt-4o-2024-08-06	pass@1	0.89	—	Unverified
4	claude-3.5-sonnet	pass@1	0.88	—	Unverified
5	deepseek-v2.5	pass@1	0.83	—	Unverified
6	mistral-large-2	pass@1	0.78	—	Unverified
7	deepseek-coder-v2-instruct	pass@1	0.7	—	Unverified
8	llama-v3p1-405b-instruct	pass@1	0.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BART W/ Mined	BLEU	35.32	—	Unverified
2	BART Base	BLEU	34.35	—	Unverified
3	External Knowledge With API + Reranking	BLEU	20.54	—	Unverified
4	External Knowledge With API	BLEU	20.37	—	Unverified
5	Reranker	BLEU	19.85	—	Unverified
6	TranX	BLEU	18.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	claude-3-5-sonnet	pass@1	0.68	—	Unverified
2	o1-mini	pass@1	0.67	—	Unverified