SOTAVerified|Agents Browse Leaderboard About Blog

Code Completion

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 61–70 of 212 papers

Title	Date	Tasks	Status	Hype
Evaluating Long Range Dependency Handling in Code Generation Models using Multi-Step Key Retrieval	Jul 23, 2024	8kCode Completion	—Unverified	0
Scaling Granite Code Models to 128K Context	Jul 18, 2024	2k4k	CodeCode Available	4
Curriculum Learning for Small Code Language Models	Jul 14, 2024	Code CompletionDecoder	—Unverified	0
TPIA: Towards Target-specific Prompt Injection Attack against Code-oriented Large Language Models	Jul 12, 2024	Code Completion	—Unverified	0
Jailbreak Attacks and Defenses Against Large Language Models: A Survey	Jul 5, 2024	Code CompletionQuestion Answering	—Unverified	0
On the Workflows and Smells of Leaderboard Operations (LBOps): An Exploratory Study of Foundation Model Leaderboards	Jul 4, 2024	Code Completion	CodeCode Available	3
Hierarchical Context Pruning: Optimizing Real-World Code Completion with Repository-Level Pretrained Code LLMs	Jun 26, 2024	Code Completion	CodeCode Available	1
CodeGemma: Open Code Models Based on Gemma	Jun 17, 2024	Code CompletionMathematical Reasoning	—Unverified	0
Long Code Arena: a Set of Benchmarks for Long-Context Code Models	Jun 17, 2024	Code CompletionCode Generation	CodeCode Available	1
Measuring memorization in RLHF for code completion	Jun 17, 2024	Code CompletionMemorization	—Unverified	0

Show:10 25 50

← PrevPage 7 of 22Next →

All datasets SAFIM CodeXGLUE - Github Java Corpus CodeXGLUE - PY150 DotPrompts Defects4J Rambo Benchmark

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	deepseek-coder-33b-base	Average	69.01	—	Unverified
2	deepseek-coder-6.7b-base	Average	63.4	—	Unverified
3	starcoderbase	Average	55.54	—	Unverified
4	gpt-4-1106-preview	Average	53.28	—	Unverified
5	CodeLlama-13b-hf	Average	52.78	—	Unverified
6	deepseek-coder-1.3b-base	Average	52.63	—	Unverified
7	CodeLlama-34b-hf	Average	49.66	—	Unverified
8	CodeLlama-7b-hf	Average	45	—	Unverified
9	gpt-3.5-turbo-0301	Average	40.86	—	Unverified
10	incoder-6B	Average	33.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeGPT-adapted	Accuracy (token-level)	77.13	—	Unverified
2	CodeT5+ 770M	EM (line-level)	37.9	—	Unverified
3	CodeT5+ 220M	EM (line-level)	35.17	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeGPT-adapted	Accuracy (token-level)	75.11	—	Unverified
2	CodeT5+ 770M	EM (line-level)	44.86	—	Unverified
3	CodeT5+ 220M	EM (line-level)	43.42	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SantaCoder-MGD	Compilation Rate	73.03	—	Unverified
2	SantaCoder	Compilation Rate	59.97	—	Unverified
3	SantaCoder	Compilation Rate	59.79	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Rambo	Compilation Rate	76.47	—	Unverified
2	RepoCoder	Compilation Rate	74.02	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Rambo	Compilation Rate	61.7	—	Unverified
2	RepoCoder	Compilation Rate	58.09	—	Unverified