SOTAVerified|Agents Browse Leaderboard About

Code Completion

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 111–120 of 212 papers

Title	Date	Tasks	Status	Hype
Traces of Memorisation in Large Language Models for Code	Dec 18, 2023	Code Completion	CodeCode Available	0
A Review of Repository Level Prompting for LLMs	Dec 15, 2023	Code CompletionCode Generation	—Unverified	0
Breaking the Silence: the Threats of Using LLMs in Software Engineering	Dec 13, 2023	Code CompletionCode Summarization	CodeCode Available	0
INSPECT: Intrinsic and Systematic Probing Evaluation for Code Transformers	Dec 8, 2023	Code CompletionDiagnostic	CodeCode Available	0
Interpretability Illusions in the Generalization of Simplified Models	Dec 6, 2023	Code CompletionDimensionality Reduction	—Unverified	0
GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding	Nov 16, 2023	Code CompletionCode Generation	CodeCode Available	0
Past as a Guide: Leveraging Retrospective Learning for Python Code Completion	Nov 13, 2023	Code CompletionHumanEval	—Unverified	0
Identifying and Mitigating Vulnerabilities in LLM-Integrated Applications	Nov 7, 2023	Code Completion	—Unverified	0
Attention Alignment and Flexible Positional Embeddings Improve Transformer Length Extrapolation	Nov 1, 2023	Code CompletionLanguage Modeling	—Unverified	0
CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion	Oct 17, 2023	Code CompletionHumanEval	CodeCode Available	1

Show:10 25 50

← PrevPage 12 of 22Next →

All datasets SAFIM CodeXGLUE - Github Java Corpus CodeXGLUE - PY150 DotPrompts Defects4J Rambo Benchmark

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	deepseek-coder-33b-base	Average	69.01	—	Unverified
2	deepseek-coder-6.7b-base	Average	63.4	—	Unverified
3	starcoderbase	Average	55.54	—	Unverified
4	gpt-4-1106-preview	Average	53.28	—	Unverified
5	CodeLlama-13b-hf	Average	52.78	—	Unverified
6	deepseek-coder-1.3b-base	Average	52.63	—	Unverified
7	CodeLlama-34b-hf	Average	49.66	—	Unverified
8	CodeLlama-7b-hf	Average	45	—	Unverified
9	gpt-3.5-turbo-0301	Average	40.86	—	Unverified
10	incoder-6B	Average	33.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeGPT-adapted	Accuracy (token-level)	77.13	—	Unverified
2	CodeT5+ 770M	EM (line-level)	37.9	—	Unverified
3	CodeT5+ 220M	EM (line-level)	35.17	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeGPT-adapted	Accuracy (token-level)	75.11	—	Unverified
2	CodeT5+ 770M	EM (line-level)	44.86	—	Unverified
3	CodeT5+ 220M	EM (line-level)	43.42	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SantaCoder-MGD	Compilation Rate	73.03	—	Unverified
2	SantaCoder	Compilation Rate	59.97	—	Unverified
3	SantaCoder	Compilation Rate	59.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Rambo	Compilation Rate	76.47	—	Unverified
2	RepoCoder	Compilation Rate	74.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Rambo	Compilation Rate	61.7	—	Unverified
2	RepoCoder	Compilation Rate	58.09	—	Unverified