Code Generation

Code Generation is an important field to predict explicit code or program structure from multimodal data sources such as incomplete code, programs in another programming language, natural language descriptions or execution examples. Code Generation tools can assist the development of automatic programming tools to improve programming productivity.

Source: Deep Learning for Source Code Modeling and Generation

Image source: Measuring Coding Challenge Competence With APPS

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 1697 papers

Title	Date	Tasks	Status	Hype
AutoCoder: Enhancing Code Large Language Model with AIEV-Instruct	May 23, 2024	Class-level Code GenerationCode Completion	CodeCode Available	4
AnalogCoder: Analog Circuit Design via Training-Free Code Generation	May 23, 2024	Code Generation	CodeCode Available	2
Evaluation of the Programming Skills of Large Language Models	May 23, 2024	ChatbotCode Generation	—Unverified	0
CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization	May 23, 2024	Code GenerationGPU	CodeCode Available	0
Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning	May 22, 2024	Code GenerationInstruction Following	—Unverified	0
GameVLM: A Decision-making Framework for Robotic Task Planning Based on Visual Language Models and Zero-sum Games	May 22, 2024	Code GenerationDecision Making	—Unverified	0
Can Github issues be solved with Tree Of Thoughts?	May 20, 2024	Code GenerationGitHub issue resolution	CodeCode Available	0
MHPP: Exploring the Capabilities and Limitations of Language Models Beyond Basic Code Generation	May 19, 2024	Code GenerationHumanEval	CodeCode Available	1
MapCoder: Multi-Agent Code Generation for Competitive Problem Solving	May 18, 2024	Code GenerationHumanEval	CodeCode Available	2
Faces that Speak: Jointly Synthesising Talking Face and Speech from Text	May 16, 2024	Code GenerationFace Generation	—Unverified	0
A Systematic Evaluation of Large Language Models for Natural Language Generation Tasks	May 16, 2024	Code GenerationDialogue Generation	—Unverified	0
DocuMint: Docstring Generation for Python using Small Language Models	May 16, 2024	BenchmarkingCode Generation	CodeCode Available	1
Python-Based Reinforcement Learning on Simulink Models	May 14, 2024	C++ codeCode Generation	—Unverified	0
Plot2Code: A Comprehensive Benchmark for Evaluating Multi-modal Large Language Models in Code Generation from Scientific Plots	May 13, 2024	Code GenerationDescriptive	—Unverified	0
LLMs and the Future of Chip Design: Unveiling Security Risks and Building Trust	May 11, 2024	Code Generation	CodeCode Available	1
Execution-Based Evaluation of Natural Language to Bash and PowerShell for Incident Remediation	May 10, 2024	Code GenerationFew-Shot Learning	CodeCode Available	0
Sketch Then Generate: Providing Incremental User Feedback and Guiding LLM Code Generation through Language-Oriented Code Sketches	May 7, 2024	Code Generation	—Unverified	0
Granite Code Models: A Family of Open Foundation Models for Code Intelligence	May 7, 2024	Code GenerationDecoder	CodeCode Available	5
Large Language Models Synergize with Automated Machine Learning	May 6, 2024	AutoMLCode Generation	CodeCode Available	0
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment	May 6, 2024	Arithmetic ReasoningCode Generation	—Unverified	0
CodeGRAG: Bridging the Gap between Natural Language and Programming Language via Graphical Retrieval Augmented Generation	May 3, 2024	Code GenerationInformativeness	—Unverified	0
Exploring Combinatorial Problem Solving with Large Language Models: A Case Study on the Travelling Salesman Problem Using GPT-3.5 Turbo	May 3, 2024	Code GenerationIn-Context Learning	—Unverified	0
Constrained Decoding for Secure Code Generation	Apr 30, 2024	Code Generation	CodeCode Available	1
CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification	Apr 30, 2024	Code GenerationHallucination	CodeCode Available	1
Aptly: Making Mobile Apps from Natural Language	Apr 30, 2024	Code GenerationLanguage Modeling	—Unverified	0
How secure is AI-generated Code: A Large-Scale Comparison of Large Language Models	Apr 29, 2024	Code Generation	CodeCode Available	2
PECC: Problem Extraction and Coding Challenges	Apr 29, 2024	Code GenerationMath	CodeCode Available	1
Tabular Embedding Model (TEM): Finetuning Embedding Models For Tabular RAG Applications	Apr 28, 2024	Code GenerationRAG	—Unverified	0
On the Limitations of Embedding Based Methods for Measuring Functional Correctness for Code Generation	Apr 26, 2024	Code GenerationHumanEval	—Unverified	0
"ChatGPT Is Here to Help, Not to Replace Anybody" -- An Evaluation of Students' Opinions On Integrating ChatGPT In CS Courses	Apr 26, 2024	Code Generation	—Unverified	0
Digital ASIC Design with Ongoing LLMs: Strategies and Prospects	Apr 25, 2024	Code Generation	—Unverified	0
AI Coders Are Among Us: Rethinking Programming Language Grammar Towards Efficient Code Generation	Apr 25, 2024	Code GenerationMath	CodeCode Available	1
OpTC -- A Toolchain for Deployment of Neural Networks on AURIX TC3xx Microcontrollers	Apr 24, 2024	Code Generation	—Unverified	0
CodeIP: A Grammar-Guided Multi-Bit Watermark for Large Language Models of Code	Apr 24, 2024	Code GenerationDiversity	—Unverified	0
Beyond Code Generation: An Observational Study of ChatGPT Usage in Software Engineering Practice	Apr 23, 2024	ChatbotCode Generation	—Unverified	0
Class-Level Code Generation from Natural Language Using Iterative, Tool-Enhanced Reasoning over Repository	Apr 22, 2024	Class-level Code GenerationCode Generation	CodeCode Available	1
Towards smaller, faster decoder-only transformers: Architectural variants and their implications	Apr 22, 2024	Code GenerationDecoder	CodeCode Available	0
Assessing GPT-4-Vision's Capabilities in UML-Based Code Generation	Apr 22, 2024	Code Generation	—Unverified	0
Large Language Models as Test Case Generators: Performance Evaluation and Enhancement	Apr 20, 2024	Code GenerationTest Case Creation	CodeCode Available	0
Low-Cost Language Models: Survey and Performance Evaluation on Python Code Generation	Apr 17, 2024	Code GenerationHumanEval	—Unverified	0
Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study	Apr 16, 2024	Code Generation	—Unverified	0
The Fault in our Stars: Quality Assessment of Code Generation Benchmarks	Apr 15, 2024	Code GenerationMemorization	—Unverified	0
MMCode: Benchmarking Multimodal Large Language Models for Code Generation with Visually Rich Programming Problems	Apr 15, 2024	BenchmarkingCode Generation	CodeCode Available	1
Test Code Generation for Telecom Software Systems using Two-Stage Generative Model	Apr 14, 2024	Code GenerationLanguage Modeling	—Unverified	0
CreativEval: Evaluating Creativity of LLM-Based Hardware Code Generation	Apr 12, 2024	Code Generation	—Unverified	0
CodeFort: Robust Training for Code Generation Models	Apr 11, 2024	Code GenerationContrastive Learning	—Unverified	0
A Multi-Expert Large Language Model Architecture for Verilog Code Generation	Apr 11, 2024	Code GenerationLanguage Modeling	—Unverified	0
Sketch-Plan-Generalize: Learning and Planning with Neuro-Symbolic Programmatic Representations for Inductive Spatial Concepts	Apr 11, 2024	Code Generationcontinual few-shot learning	—Unverified	0
Comments as Natural Logic Pivots: Improve Code Generation via Comment Perspective	Apr 11, 2024	Code GenerationHumanEval	CodeCode Available	0
Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition	Apr 10, 2024	Code GenerationMathematical Reasoning	CodeCode Available	0

Show:10 25 50

← PrevPage 20 of 34Next →

All datasets MBPP APPS CoNaLa Django WikiSQL RES-Q CodeContests HumanEval PECC WebApp1K-React CoNaLa-Ext WebApp1k-Duo-React

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	EG-CFG (DeepSeek-V3-0324)	Accuracy	96.6	—	Unverified
2	QualityFlow (Sonnet-3.5)	Accuracy	94.2	—	Unverified
3	o1-mini + MapCoder (Hamming.ai)	Accuracy	93.2	—	Unverified
4	MGDebugger (DeepSeek-V3-0324)	Accuracy	92.4	—	Unverified
5	GPT-4 + AgentCoder	Accuracy	91.8	—	Unverified
6	CodeSim (GPT4o)	Accuracy	90.7	—	Unverified
7	Jiutian-大模型	Accuracy	90	—	Unverified
8	GPT-3.5 Turbo (ChatGPT) + AgentCoder	Accuracy	89.9	—	Unverified
9	MapCoder (GPT-4o)	Accuracy	89.7	—	Unverified
10	GPT-4 (ChatGPT Plus)	Accuracy	87.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LPW (GPT-4o)	Introductory Pass@1	87.2	—	Unverified
2	MoTCoder-32B-V1.5	Introductory Pass@1	68.44	—	Unverified
3	MoTCoder-7B-V1.5	Introductory Pass@1	54.26	—	Unverified
4	code-davinci-002 175B (CodeT)	Introductory Pass@1	47.3	—	Unverified
5	deepseek-ai/deepseek-coder-6.7b-instruct	Introductory Pass@1	33.8	—	Unverified
6	code-davinci-002 175B	Introductory Pass@1	31.92	—	Unverified
7	CodeChain+WizardCoder-15b	Introductory Pass@1	29.3	—	Unverified
8	WizardCoder-15b	Introductory Pass@1	26.29	—	Unverified
9	CodeSim (GPT4)	Introductory Pass@1	26.04	—	Unverified
10	AlphaCode 1B Filtered from 50000	Competition Pass@any	22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PanGu-Coder-FT-I	BLEU	44.32	—	Unverified
2	RoBERTaMarian	BLEU	35.74	—	Unverified
3	MarianCG	BLEU	34.43	—	Unverified
4	TranX + BERT w/mined	BLEU	34.2	—	Unverified
5	BERT + TAE	BLEU	33.41	—	Unverified
6	BERTMarian	BLEU	32.46	—	Unverified
7	External Knowledge With API + Reranking	BLEU	32.26	—	Unverified
8	External Knowledge With API	BLEU	30.69	—	Unverified
9	BART W/ Mined	BLEU	30.55	—	Unverified
10	ELECTRAMarian	BLEU	30.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MarianCG	Accuracy	81.83	—	Unverified
2	BERT + TAE	Accuracy	81.03	—	Unverified
3	TranX + BERT w/mined	Accuracy	81.03	—	Unverified
4	Reranker	Accuracy	80.2	—	Unverified
5	LUKEMarian	Accuracy	78.5	—	Unverified
6	RoBERTaMarian	Accuracy	77.95	—	Unverified
7	BERTMarian	Accuracy	76.68	—	Unverified
8	Tranx	Accuracy	73.7	—	Unverified
9	ELECTRAMarian	Accuracy	65.32	—	Unverified
10	lpn (Ling et al., 2016)	Accuracy	62.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NL2SQL-RULE	Execution Accuracy	89.2	—	Unverified
2	TypeSQL+TC (Yu et al., 2018)+	Execution Accuracy	82.6	—	Unverified
3	Tranx	Execution Accuracy	78.6	—	Unverified
4	STAMP+RL (Sun et al., 2018)+	Execution Accuracy	74.6	—	Unverified
5	STAMP (Sun et al., 2018)+	Execution Accuracy	74.4	—	Unverified
6	TypeSQL (Yu et al., 2018)	Execution Accuracy	73.5	—	Unverified
7	PT-MAML (Huang et al., 2018)	Execution Accuracy	68	—	Unverified
8	Bidirectional Attention for SQL Generation	Execution Accuracy	62.5	—	Unverified
9	Seq2SQL (Zhong et al., 2017)	Execution Accuracy	59.4	—	Unverified
10	Seq2Seq (Zhong et al., 2017)	Execution Accuracy	35.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QurrentOS-coder + Claude 3.5 Sonnet	pass@1	58	—	Unverified
2	QurrentOS-coder + GPT-4o	pass@1	46	—	Unverified
3	QurrentOS-coder + GPT-4 Turbo	pass@1	37	—	Unverified
4	QurrentOS-coder + Claude 3 Opus	pass@1	36	—	Unverified
5	QurrentOS-coder + Gemini 1.5 Pro	pass@1	30	—	Unverified
6	QurrentOS-coder + GPT-4	pass@1	30	—	Unverified
7	QurrentOS-coder + DeepSeek-Coder-V2	pass@1	29	—	Unverified
8	QurrentOS-coder + Llama 3 70b	pass@1	20	—	Unverified
9	QurrentOS-coder + Qwen-72B-Instruct	pass@1	18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EG-CFG (DeepSeek-V3-0324)	Test Set pass@1	58.18	—	Unverified
2	LPW (GPT-4o)	Test Set pass@1	34.7	—	Unverified
3	MapCoder (GPT-4)	Test Set pass@1	28.5	—	Unverified
4	CodeSim (GPT4)	Test Set pass@1	28.4	—	Unverified
5	MoTCoder-15B	Test Set pass@1	26.34	—	Unverified
6	MoTCoder-7B-v1.5	Test Set pass@1	20.77	—	Unverified
7	CodeChain + WizardCoder-15B	Test Set pass@1	2.35	—	Unverified
8	WizardCoder-15B	Test Set pass@1	1.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepSeek-R1 (MGDebugger)	Pass@1	100	—	Unverified
2	LLaMA 3	Pass@1	99.4	—	Unverified
3	QualityFlow (Sonnet-3.5)	Pass@1	98.8	—	Unverified
4	Phi-2	Pass@1	98.2	—	Unverified
5	EG-CFG (DeepSeek-V3-0324)	Pass@1	96.95	—	Unverified
6	Mistral 7B	Pass@1	93.9	—	Unverified
7	Claude Sonnet 3.5	Pass@1	90.85	—	Unverified
8	L2MAC (GPT-4)	Pass@1	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Claude 3 Haiku	Pass@3	27.67	—	Unverified
2	GPT-3.5 Turbo	Pass@3	23.75	—	Unverified
3	codechat-bison	Pass@3	11.39	—	Unverified
4	chat-bison	Pass@3	8.48	—	Unverified
5	Mixtral-8x7B-Instruct	Pass@3	8.35	—	Unverified
6	Phi-3-mini-128k-instruct	Pass@3	7.18	—	Unverified
7	WizardLM-2-7B	Pass@3	3.72	—	Unverified
8	Llama-3-8B-Instruct	Pass@3	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o1-preview	pass@1	0.95	—	Unverified
2	o1-mini	pass@1	0.94	—	Unverified
3	gpt-4o-2024-08-06	pass@1	0.89	—	Unverified
4	claude-3.5-sonnet	pass@1	0.88	—	Unverified
5	deepseek-v2.5	pass@1	0.83	—	Unverified
6	mistral-large-2	pass@1	0.78	—	Unverified
7	deepseek-coder-v2-instruct	pass@1	0.7	—	Unverified
8	llama-v3p1-405b-instruct	pass@1	0.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BART W/ Mined	BLEU	35.32	—	Unverified
2	BART Base	BLEU	34.35	—	Unverified
3	External Knowledge With API + Reranking	BLEU	20.54	—	Unverified
4	External Knowledge With API	BLEU	20.37	—	Unverified
5	Reranker	BLEU	19.85	—	Unverified
6	TranX	BLEU	18.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	claude-3-5-sonnet	pass@1	0.68	—	Unverified
2	o1-mini	pass@1	0.67	—	Unverified