Code Search

The goal of Code Search is to retrieve code fragments from a large code corpus that most closely match a developer’s intent, which is expressed in natural language.

Source: When Deep Learning Met Code Search

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 125 papers

Title	Date	Tasks	Status	Hype
MGS3: A Multi-Granularity Self-Supervised Code Search Framework	May 30, 2025	Code SearchContrastive Learning	—Unverified	0
DeepRTL2: A Versatile Model for RTL-Related Tasks	May 28, 2025	Code GenerationCode Search	—Unverified	0
LEANCODE: Understanding Models Better for Code Simplification of Pre-trained Large Language Models	May 20, 2025	Code SearchCode Summarization	—Unverified	0
Knowledge Graph Based Repository-Level Code Generation	May 20, 2025	Code GenerationCode Search	—Unverified	0
Large Language Models are Qualified Benchmark Builders: Rebuilding Pre-Training Datasets for Advancing Code Intelligence Tasks	Apr 28, 2025	Code SearchCode Summarization	—Unverified	0
Towards Leveraging Large Language Model Summaries for Topic Modeling in Source Code	Apr 24, 2025	Code SearchLanguage Modeling	—Unverified	0
A Study on Mixup-Inspired Augmentation Methods for Software Vulnerability Detection	Apr 22, 2025	Code SearchVulnerability Detection	—Unverified	0
Zero-Shot Cross-Domain Code Search without Fine-Tuning	Apr 10, 2025	Code SearchNatural Language Queries	CodeCode Available	1
OASIS: Order-Augmented Strategy for Improved Code Search	Mar 11, 2025	Code SearchLanguage Modeling	—Unverified	0
LoRACode: LoRA Adapters for Code Embeddings	Mar 7, 2025	Code Searchparameter-efficient fine-tuning	—Unverified	0
MoSE: Hierarchical Self-Distillation Enhances Early Layer Embeddings	Mar 4, 2025	AllCode Search	—Unverified	0
Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets	Feb 27, 2025	Code GenerationCode Search	—Unverified	0
URECA: The Chain of Two Minimum Set Cover Problems exists behind Adaptation to Shifts in Semantic Code Search	Feb 11, 2025	ClusteringCode Search	—Unverified	0
Repository-level Code Search with Neural Retrieval Methods	Feb 10, 2025	Bug fixingCode Search	CodeCode Available	0
OrcaLoca: An LLM Agent Framework for Software Issue Localization	Feb 1, 2025	Code SearchLanguage Modeling	—Unverified	0
On the Compression of Language Models for Code: An Empirical Study on CodeBERT	Dec 18, 2024	Code SearchCode Summarization	—Unverified	0
Isotropy Matters: Soft-ZCA Whitening of Embeddings for Semantic Code Search	Nov 26, 2024	Code Search	CodeCode Available	0
CodeSAM: Source Code Representation Learning by Infusing Self-Attention with Multi-Code-View Graphs	Nov 21, 2024	Clone DetectionCode Search	CodeCode Available	2
In-the-loop Hyper-Parameter Optimization for LLM-Based Automated Design of Heuristics	Oct 7, 2024	Code GenerationCode Search	—Unverified	0
Deep Code Search with Naming-Agnostic Contrastive Multi-View Learning	Aug 18, 2024	Code SearchContrastive Learning	—Unverified	0
ViC: Virtual Compiler Is All You Need For Assembly Code Search	Aug 10, 2024	AllCode Search	CodeCode Available	1
Natural Language Outlines for Code: Literate Programming in the LLM Era	Aug 9, 2024	Code GenerationCode Search	—Unverified	0
LLM Agents Improve Semantic Code Search	Aug 5, 2024	Code SearchRAG	—Unverified	0
SpecRover: Code Intent Extraction via LLMs	Aug 5, 2024	Code SearchLarge Language Model	—Unverified	0
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models	Jul 3, 2024	BenchmarkingCode Search	CodeCode Available	2
Toward Exploring the Code Understanding Capabilities of Pre-trained Code Generation Models	Jun 18, 2024	Clone DetectionCode Generation	—Unverified	0
CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents	Jun 17, 2024	Code GenerationCode Search	CodeCode Available	0
RepoQA: Evaluating Long Context Code Understanding	Jun 10, 2024	Code Search	CodeCode Available	2
Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures	May 3, 2024	Clone DetectionCode Search	CodeCode Available	1
AutoCodeRover: Autonomous Program Improvement	Apr 8, 2024	Bug fixingCode Search	CodeCode Available	7
ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search	Mar 25, 2024	Code SearchQuestion Answering	CodeCode Available	0
Source Code Clone Detection Using Unsupervised Similarity Measures	Jan 18, 2024	Clone DetectionCode Search	CodeCode Available	1
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search	Jan 9, 2024	Code GenerationCode Search	CodeCode Available	1
Code Search Debiasing:Improve Search Results beyond Overall Ranking Performance	Nov 25, 2023	Code SearchReranking	—Unverified	0
GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding	Nov 16, 2023	Code CompletionCode Generation	CodeCode Available	0
TransformCode: A Contrastive Learning Framework for Code Embedding via Subtree Transformation	Nov 10, 2023	Clone DetectionCode Search	CodeCode Available	0
Noisy Pair Corrector for Dense Retrieval	Nov 7, 2023	Code SearchRetrieval	—Unverified	0
ACES: Generating Diverse Programming Puzzles with with Autotelic Generative Models	Oct 15, 2023	Code SearchDiversity	—Unverified	0
Language Models are Universal Embedders	Oct 12, 2023	Code SearchLanguage Modeling	CodeCode Available	1
Rethinking Negative Pairs in Code Search	Oct 12, 2023	Code SearchContrastive Learning	CodeCode Available	1
Contrastive Prompt Learning-based Code Search based on Interaction Matrix	Oct 10, 2023	Code SearchContrastive Learning	—Unverified	0
Code Representation Pre-training with Complements from Program Executions	Sep 4, 2023	Code SearchLanguage Modeling	—Unverified	0
Laminar: A New Serverless Stream-based Framework with Semantic Code Search and Code Completion	Sep 1, 2023	Code CompletionCode Search	—Unverified	0
MELT: Mining Effective Lightweight Transformations from Pull Requests	Aug 28, 2023	Code Search	CodeCode Available	0
Evaluating and Optimizing the Effectiveness of Neural Machine Translation in Supporting Code Retrieval Models: A Study on the CAT Benchmark	Aug 9, 2023	Code SearchCode Translation	—Unverified	0
Constructing Multilingual Code Search Dataset Using Neural Machine Translation	Jun 27, 2023	Code SearchMachine Translation	CodeCode Available	0
Structure-Aware Language Model Pretraining Improves Dense Retrieval on Structured Data	May 31, 2023	Code SearchLanguage Modeling	CodeCode Available	1
Backdooring Neural Code Search	May 27, 2023	Autonomous DrivingCode Search	CodeCode Available	1
CCT-Code: Cross-Consistency Training for Multilingual Clone Detection and Code Search	May 19, 2023	Clone DetectionCode Search	—Unverified	0
Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching by Code Snippets	May 19, 2023	Code SearchRetrieval	—Unverified	0

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets CodeSearchNet CoDesc CodeXGLUE - AdvTest CodeSearchNet - Ruby CodeXGLUE - WebQueryTest CoIR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	cpt-code M	Overall	93.5	—	Unverified
2	cpt-code S	Overall	93.4	—	Unverified
3	CodeT5+ 770M	Overall	77.4	—	Unverified
4	GraphCodeBERT	Overall	77.4	—	Unverified
5	CodeT5+ 220M	Overall	77.1	—	Unverified
6	CodeBERT	Overall	76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Self-attention	Test MRR	0.84	—	Unverified
2	NBOW	Test MRR	0.81	—	Unverified
3	RNN	Test MRR	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeT5+ 770M	MRR	44.7	—	Unverified
2	CodeT5+ 220M	MRR	43.3	—	Unverified
3	CodeBERT	MRR	27.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Uni-SBT	MRR	0.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeBERT	Accuracy	47.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Voyage-code-002	nDCG@10	56.26	—	Unverified