Code Generation

Code Generation is an important field to predict explicit code or program structure from multimodal data sources such as incomplete code, programs in another programming language, natural language descriptions or execution examples. Code Generation tools can assist the development of automatic programming tools to improve programming productivity.

Source: Deep Learning for Source Code Modeling and Generation

Image source: Measuring Coding Challenge Competence With APPS

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1051–1100 of 1697 papers

Title	Date	Tasks	Status	Hype
Quantifying Contamination in Evaluating Code Generation Capabilities of Language Models	Mar 6, 2024	Code GenerationMemorization	CodeCode Available	1
Guiding Enumerative Program Synthesis with Large Language Models	Mar 6, 2024	Code GenerationProgram Synthesis	—Unverified	0
IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators	Mar 6, 2024	Code CompletionCode Generation	CodeCode Available	1
Learn to Code Sustainably: An Empirical Study on LLM-based Green Code Generation	Mar 5, 2024	Code Generation	—Unverified	0
Design2Code: Benchmarking Multimodal Code Generation for Automated Front-End Engineering	Mar 5, 2024	BenchmarkingCode Generation	—Unverified	0
The Claude 3 Model Family: Opus, Sonnet, Haiku	Mar 4, 2024	1 Image, 2*2 StitchingArithmetic Reasoning	—Unverified	0
CatCode: A Comprehensive Evaluation Framework for LLMs On the Mixture of Code and Text	Mar 4, 2024	Code GenerationCode Translation	—Unverified	0
DACO: Towards Application-Driven and Comprehensive Data Analysis via Code Generation	Mar 4, 2024	2kCode Generation	CodeCode Available	1
SynCode: LLM Generation with Grammar Augmentation	Mar 3, 2024	Code Generationvalid	CodeCode Available	3
LLaMoCo: Instruction Tuning of Large Language Models for Optimization Code Generation	Mar 2, 2024	Code GenerationContrastive Learning	—Unverified	0
Comparing large language models and human programmers for generating programming code	Mar 1, 2024	Code GenerationComputational Efficiency	—Unverified	0
Open Assistant Toolkit -- version 2	Mar 1, 2024	Code GenerationResponse Generation	CodeCode Available	1
Leveraging pre-trained language models for code generation	Feb 29, 2024	Code GenerationLanguage Modelling	CodeCode Available	0
SoD^2: Statically Optimizing Dynamic Deep Neural Network	Feb 29, 2024	Code Generation	—Unverified	0
SEED: Customize Large Language Models with Sample-Efficient Adaptation for Code Generation	Feb 29, 2024	Code Generation	—Unverified	0
StarCoder 2 and The Stack v2: The Next Generation	Feb 29, 2024	Code CompletionCode Generation	CodeCode Available	7
Compositional API Recommendation for Library-Oriented Code Generation	Feb 29, 2024	Code GenerationLibrary-Oriented Code Generation	—Unverified	0
The Counterfeit Conundrum: Can Code Language Models Grasp the Nuances of Their Incorrect Generations?	Feb 29, 2024	Code GenerationLanguage Modelling	—Unverified	0
Data Interpreter: An LLM Agent For Data Science	Feb 28, 2024	Code GenerationLanguage Modelling	—Unverified	0
Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation	Feb 28, 2024	Code GenerationIn-Context Learning	CodeCode Available	2
DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning	Feb 27, 2024	Code Generation	CodeCode Available	3
Insights from the Usage of the Ansible Lightspeed Code Completion Service	Feb 27, 2024	Code CompletionCode Generation	—Unverified	0
Benchmarking Data Science Agents	Feb 27, 2024	BenchmarkingCode Generation	CodeCode Available	1
HumanEval-XL: A Multilingual Code Generation Benchmark for Cross-lingual Natural Language Generalization	Feb 26, 2024	Code GenerationHumanEval	CodeCode Available	1
RepoAgent: An LLM-Powered Open-Source Framework for Repository-level Code Documentation Generation	Feb 26, 2024	Code Documentation GenerationCode Generation	CodeCode Available	4
Debug like a Human: A Large Language Model Debugger via Verifying Runtime Execution Step-by-step	Feb 25, 2024	Code GenerationHumanEval	CodeCode Available	4
RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis	Feb 25, 2024	Code GenerationMultimodal Reasoning	—Unverified	0
How Do Humans Write Code? Large Models Do It the Same Way Too	Feb 24, 2024	Code GenerationMath	CodeCode Available	0
RoboScript: Code Generation for Free-Form Manipulation Tasks across Real and Simulation	Feb 22, 2024	Code GenerationCommon Sense Reasoning	—Unverified	0
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming	Feb 22, 2024	Bug fixingCode Generation	—Unverified	0
Q-Probe: A Lightweight Approach to Reward Maximization for Language Models	Feb 22, 2024	Code GenerationLanguage Modeling	CodeCode Available	1
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement	Feb 22, 2024	Code GenerationHumanEval	CodeCode Available	5
Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity Tracking	Feb 22, 2024	Code GenerationInstruction Following	—Unverified	0
Semantic Mirror Jailbreak: Genetic Algorithm Based Jailbreak Prompts Against Open-source LLMs	Feb 21, 2024	Code GenerationSemantic Similarity	—Unverified	0
Test-Driven Development for Code Generation	Feb 21, 2024	Code GenerationHumanEval	—Unverified	0
HumanEval on Latest GPT Models -- 2024	Feb 20, 2024	Code GenerationHumanEval	CodeCode Available	0
RoCode: A Dataset for Measuring Code Intelligence from Problem Definitions in Romanian	Feb 20, 2024	Code Generation	CodeCode Available	0
Advancing GenAI Assisted Programming--A Comparative Study on Prompt Efficiency and Code Quality Between GPT-4 and GLM-4	Feb 20, 2024	Code Generation	—Unverified	0
EVOR: Evolving Retrieval for Code Generation	Feb 19, 2024	Code GenerationRAG	CodeCode Available	2
MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization	Feb 18, 2024	Code GenerationData Visualization	CodeCode Available	2
Can ChatGPT Support Developers? An Empirical Evaluation of Large Language Models for Code Generation	Feb 18, 2024	Code Generation	—Unverified	0
Exploring Hybrid Question Answering via Program-based Prompting	Feb 16, 2024	Code GenerationQuestion Answering	—Unverified	0
CodeMind: Evaluating Large Language Models for Code Reasoning	Feb 15, 2024	Code Generation	CodeCode Available	1
Instruction Tuning for Secure Code Generation	Feb 14, 2024	Code Generation	CodeCode Available	2
MPIrigen: MPI Code Generation through Domain-Specific Language Models	Feb 14, 2024	Code Generation	CodeCode Available	1
DolphCoder: Echo-Locating Code Large Language Models with Diverse and Multi-Objective Instruction Tuning	Feb 14, 2024	Code GenerationHumanEval	CodeCode Available	1
SafeDecoding: Defending against Jailbreak Attacks via Safety-Aware Decoding	Feb 14, 2024	ChatbotCode Generation	CodeCode Available	2
Learning How To Ask: Cycle-Consistency Refines Prompts in Multimodal Foundation Models	Feb 13, 2024	Code GenerationHumanEval	—Unverified	0
GRILLBot In Practice: Lessons and Tradeoffs Deploying Large Language Models for Adaptable Conversational Task Assistants	Feb 12, 2024	Code GenerationManagement	CodeCode Available	1
Grounding Data Science Code Generation with Input-Output Specifications	Feb 12, 2024	Code Generation	—Unverified	0

Show:10 25 50

← PrevPage 22 of 34Next →

All datasets MBPP APPS CoNaLa Django WikiSQL RES-Q CodeContests HumanEval PECC WebApp1K-React CoNaLa-Ext WebApp1k-Duo-React

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	EG-CFG (DeepSeek-V3-0324)	Accuracy	96.6	—	Unverified
2	QualityFlow (Sonnet-3.5)	Accuracy	94.2	—	Unverified
3	o1-mini + MapCoder (Hamming.ai)	Accuracy	93.2	—	Unverified
4	MGDebugger (DeepSeek-V3-0324)	Accuracy	92.4	—	Unverified
5	GPT-4 + AgentCoder	Accuracy	91.8	—	Unverified
6	CodeSim (GPT4o)	Accuracy	90.7	—	Unverified
7	Jiutian-大模型	Accuracy	90	—	Unverified
8	GPT-3.5 Turbo (ChatGPT) + AgentCoder	Accuracy	89.9	—	Unverified
9	MapCoder (GPT-4o)	Accuracy	89.7	—	Unverified
10	GPT-4 (ChatGPT Plus)	Accuracy	87.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	LPW (GPT-4o)	Introductory Pass@1	87.2	—	Unverified
2	MoTCoder-32B-V1.5	Introductory Pass@1	68.44	—	Unverified
3	MoTCoder-7B-V1.5	Introductory Pass@1	54.26	—	Unverified
4	code-davinci-002 175B (CodeT)	Introductory Pass@1	47.3	—	Unverified
5	deepseek-ai/deepseek-coder-6.7b-instruct	Introductory Pass@1	33.8	—	Unverified
6	code-davinci-002 175B	Introductory Pass@1	31.92	—	Unverified
7	CodeChain+WizardCoder-15b	Introductory Pass@1	29.3	—	Unverified
8	WizardCoder-15b	Introductory Pass@1	26.29	—	Unverified
9	CodeSim (GPT4)	Introductory Pass@1	26.04	—	Unverified
10	AlphaCode 1B Filtered from 50000	Competition Pass@any	22	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PanGu-Coder-FT-I	BLEU	44.32	—	Unverified
2	RoBERTaMarian	BLEU	35.74	—	Unverified
3	MarianCG	BLEU	34.43	—	Unverified
4	TranX + BERT w/mined	BLEU	34.2	—	Unverified
5	BERT + TAE	BLEU	33.41	—	Unverified
6	BERTMarian	BLEU	32.46	—	Unverified
7	External Knowledge With API + Reranking	BLEU	32.26	—	Unverified
8	External Knowledge With API	BLEU	30.69	—	Unverified
9	BART W/ Mined	BLEU	30.55	—	Unverified
10	ELECTRAMarian	BLEU	30.18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MarianCG	Accuracy	81.83	—	Unverified
2	BERT + TAE	Accuracy	81.03	—	Unverified
3	TranX + BERT w/mined	Accuracy	81.03	—	Unverified
4	Reranker	Accuracy	80.2	—	Unverified
5	LUKEMarian	Accuracy	78.5	—	Unverified
6	RoBERTaMarian	Accuracy	77.95	—	Unverified
7	BERTMarian	Accuracy	76.68	—	Unverified
8	Tranx	Accuracy	73.7	—	Unverified
9	ELECTRAMarian	Accuracy	65.32	—	Unverified
10	lpn (Ling et al., 2016)	Accuracy	62.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NL2SQL-RULE	Execution Accuracy	89.2	—	Unverified
2	TypeSQL+TC (Yu et al., 2018)+	Execution Accuracy	82.6	—	Unverified
3	Tranx	Execution Accuracy	78.6	—	Unverified
4	STAMP+RL (Sun et al., 2018)+	Execution Accuracy	74.6	—	Unverified
5	STAMP (Sun et al., 2018)+	Execution Accuracy	74.4	—	Unverified
6	TypeSQL (Yu et al., 2018)	Execution Accuracy	73.5	—	Unverified
7	PT-MAML (Huang et al., 2018)	Execution Accuracy	68	—	Unverified
8	Bidirectional Attention for SQL Generation	Execution Accuracy	62.5	—	Unverified
9	Seq2SQL (Zhong et al., 2017)	Execution Accuracy	59.4	—	Unverified
10	Seq2Seq (Zhong et al., 2017)	Execution Accuracy	35.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	QurrentOS-coder + Claude 3.5 Sonnet	pass@1	58	—	Unverified
2	QurrentOS-coder + GPT-4o	pass@1	46	—	Unverified
3	QurrentOS-coder + GPT-4 Turbo	pass@1	37	—	Unverified
4	QurrentOS-coder + Claude 3 Opus	pass@1	36	—	Unverified
5	QurrentOS-coder + Gemini 1.5 Pro	pass@1	30	—	Unverified
6	QurrentOS-coder + GPT-4	pass@1	30	—	Unverified
7	QurrentOS-coder + DeepSeek-Coder-V2	pass@1	29	—	Unverified
8	QurrentOS-coder + Llama 3 70b	pass@1	20	—	Unverified
9	QurrentOS-coder + Qwen-72B-Instruct	pass@1	18	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	EG-CFG (DeepSeek-V3-0324)	Test Set pass@1	58.18	—	Unverified
2	LPW (GPT-4o)	Test Set pass@1	34.7	—	Unverified
3	MapCoder (GPT-4)	Test Set pass@1	28.5	—	Unverified
4	CodeSim (GPT4)	Test Set pass@1	28.4	—	Unverified
5	MoTCoder-15B	Test Set pass@1	26.34	—	Unverified
6	MoTCoder-7B-v1.5	Test Set pass@1	20.77	—	Unverified
7	CodeChain + WizardCoder-15B	Test Set pass@1	2.35	—	Unverified
8	WizardCoder-15B	Test Set pass@1	1.11	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	DeepSeek-R1 (MGDebugger)	Pass@1	100	—	Unverified
2	LLaMA 3	Pass@1	99.4	—	Unverified
3	QualityFlow (Sonnet-3.5)	Pass@1	98.8	—	Unverified
4	Phi-2	Pass@1	98.2	—	Unverified
5	EG-CFG (DeepSeek-V3-0324)	Pass@1	96.95	—	Unverified
6	Mistral 7B	Pass@1	93.9	—	Unverified
7	Claude Sonnet 3.5	Pass@1	90.85	—	Unverified
8	L2MAC (GPT-4)	Pass@1	90.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Claude 3 Haiku	Pass@3	27.67	—	Unverified
2	GPT-3.5 Turbo	Pass@3	23.75	—	Unverified
3	codechat-bison	Pass@3	11.39	—	Unverified
4	chat-bison	Pass@3	8.48	—	Unverified
5	Mixtral-8x7B-Instruct	Pass@3	8.35	—	Unverified
6	Phi-3-mini-128k-instruct	Pass@3	7.18	—	Unverified
7	WizardLM-2-7B	Pass@3	3.72	—	Unverified
8	Llama-3-8B-Instruct	Pass@3	3.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	o1-preview	pass@1	0.95	—	Unverified
2	o1-mini	pass@1	0.94	—	Unverified
3	gpt-4o-2024-08-06	pass@1	0.89	—	Unverified
4	claude-3.5-sonnet	pass@1	0.88	—	Unverified
5	deepseek-v2.5	pass@1	0.83	—	Unverified
6	mistral-large-2	pass@1	0.78	—	Unverified
7	deepseek-coder-v2-instruct	pass@1	0.7	—	Unverified
8	llama-v3p1-405b-instruct	pass@1	0.3	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BART W/ Mined	BLEU	35.32	—	Unverified
2	BART Base	BLEU	34.35	—	Unverified
3	External Knowledge With API + Reranking	BLEU	20.54	—	Unverified
4	External Knowledge With API	BLEU	20.37	—	Unverified
5	Reranker	BLEU	19.85	—	Unverified
6	TranX	BLEU	18.85	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	claude-3-5-sonnet	pass@1	0.68	—	Unverified
2	o1-mini	pass@1	0.67	—	Unverified