Code Search

The goal of Code Search is to retrieve code fragments from a large code corpus that most closely match a developer’s intent, which is expressed in natural language.

Source: When Deep Learning Met Code Search

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 125 papers

Title	Date	Tasks	Status	Hype	Score
AutoCodeRover: Autonomous Program Improvement	Apr 8, 2024	Bug fixingCode Search	CodeCode Available	7	5
CodeSAM: Source Code Representation Learning by Infusing Self-Attention with Multi-Code-View Graphs	Nov 21, 2024	Clone DetectionCode Search	CodeCode Available	2	5
RepoQA: Evaluating Long Context Code Understanding	Jun 10, 2024	Code Search	CodeCode Available	2	5
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models	Jul 3, 2024	BenchmarkingCode Search	CodeCode Available	2	5
Rethinking Negative Pairs in Code Search	Oct 12, 2023	Code SearchContrastive Learning	CodeCode Available	1	5
On the Importance of Building High-quality Training Datasets for Neural Code Search	Feb 14, 2022	Code SearchRetrieval	CodeCode Available	1	5
GraphSearchNet: Enhancing GNNs via Capturing Global Dependencies for Semantic Code Search	Nov 4, 2021	Code SearchCode Summarization	CodeCode Available	1	5
deGraphCS: Embedding Variable-based Flow Graph for Neural Code Search	Mar 24, 2021	Code SearchGraph Neural Network	CodeCode Available	1	5
Learning Deep Semantic Model for Code Search using CodeSearchNet Corpus	Jan 27, 2022	Code SearchInformation Retrieval	CodeCode Available	1	5
Language Models are Universal Embedders	Oct 12, 2023	Code SearchLanguage Modeling	CodeCode Available	1	5
One Adapter for All Programming Languages? Adapter Tuning for Code Search and Summarization	Mar 28, 2023	AllCode Search	CodeCode Available	1	5
The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation	May 9, 2023	Code GenerationCode Search	CodeCode Available	1	5
Source Code Clone Detection Using Unsupervised Similarity Measures	Jan 18, 2024	Clone DetectionCode Search	CodeCode Available	1	5
Text and Code Embeddings by Contrastive Pre-Training	Jan 24, 2022	Code SearchLinear-Probe Classification	CodeCode Available	1	5
Faster Person Re-Identification	Aug 16, 2020	Code SearchPerson Re-Identification	CodeCode Available	1	5
XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence	Jun 16, 2022	Code Search	CodeCode Available	1	5
funcGNN: A Graph Neural Network Approach to Program Similarity	Jul 26, 2020	Code SearchGraph Embedding	CodeCode Available	1	5
ViC: Virtual Compiler Is All You Need For Assembly Code Search	Aug 10, 2024	AllCode Search	CodeCode Available	1	5
A Toolkit for Generating Code Knowledge Graphs	Feb 21, 2020	Code SearchImage Classification	CodeCode Available	1	5
Is a Single Model Enough? MuCoS: A Multi-Model Ensemble Learning for Semantic Code Search	Jul 10, 2021	Code SearchData Augmentation	CodeCode Available	1	5
Neural Code Search Revisited: Enhancing Code Snippet Retrieval through Natural Language Intent	Aug 27, 2020	Annotated Code SearchCode Search	CodeCode Available	1	5
Multimodal Representation for Neural Code Search	Jul 2, 2021	Code SearchSemantic Similarity	CodeCode Available	1	5
Search4Code: Code Search Intent Classification Using Weak Supervision	Nov 24, 2020	ClassificationCode Search	CodeCode Available	1	5
PalmTree: Learning an Assembly Language Model for Instruction Embedding	Jan 21, 2021	Boundary DetectionCode Search	CodeCode Available	1	5
Backdooring Neural Code Search	May 27, 2023	Autonomous DrivingCode Search	CodeCode Available	1	5
Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures	May 3, 2024	Clone DetectionCode Search	CodeCode Available	1	5
UniXcoder: Unified Cross-Modal Pre-training for Code Representation	Mar 8, 2022	Code CompletionCode Search	CodeCode Available	1	5
Rewriting the Code: A Simple Method for Large Language Model Augmented Code Search	Jan 9, 2024	Code GenerationCode Search	CodeCode Available	1	5
Code Search based on Context-aware Code Translation	Feb 16, 2022	Code SearchCode Translation	CodeCode Available	1	5
Structure-Aware Language Model Pretraining Improves Dense Retrieval on Structured Data	May 31, 2023	Code SearchLanguage Modeling	CodeCode Available	1	5
Zero-Shot Cross-Domain Code Search without Fine-Tuning	Apr 10, 2025	Code SearchNatural Language Queries	CodeCode Available	1	5
CodeSearchNet Challenge: Evaluating the State of Semantic Code Search	Sep 20, 2019	4kCode Search	CodeCode Available	1	5
DOBF: A Deobfuscation Pre-Training Objective for Programming Languages	Feb 15, 2021	Code SearchCode Translation	CodeCode Available	1	5
CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding and Generation	Feb 9, 2021	BIG-bench Machine LearningClone Detection	CodeCode Available	1	5
CoSQA: 20,000+ Web Queries for Code Search and Question Answering	May 27, 2021	Code SearchContrastive Learning	CodeCode Available	1	5
Bridging Pre-trained Models and Downstream Tasks for Source Code Understanding	Dec 4, 2021	Clone DetectionCode Search	CodeCode Available	1	5
Exploring Representation-Level Augmentation for Code Search	Oct 21, 2022	Code SearchContrastive Learning	CodeCode Available	1	5
ContraCLM: Contrastive Learning For Causal Language Model	Oct 3, 2022	Code GenerationCode Search	CodeCode Available	1	5
Global Contrastive Batch Sampling via Optimization on Sample Permutations	Oct 23, 2022	Code SearchContrastive Learning	CodeCode Available	0	5
Repository-level Code Search with Neural Retrieval Methods	Feb 10, 2025	Bug fixingCode Search	CodeCode Available	0	5
ProCQA: A Large-scale Community-based Programming Question Answering Dataset for Code Search	Mar 25, 2024	Code SearchQuestion Answering	CodeCode Available	0	5
MELT: Mining Effective Lightweight Transformations from Pull Requests	Aug 28, 2023	Code Search	CodeCode Available	0	5
CoSQA+: Pioneering the Multi-Choice Code Search Benchmark with Test-Driven Agents	Jun 17, 2024	Code GenerationCode Search	CodeCode Available	0	5
Generating Clarifying Questions for Query Refinement in Source Code Search	Jan 24, 2022	Code Search	CodeCode Available	0	5
GenCodeSearchNet: A Benchmark Test Suite for Evaluating Generalization in Programming Language Understanding	Nov 16, 2023	Code CompletionCode Generation	CodeCode Available	0	5
Memorization and Generalization in Neural Code Intelligence Models	Jun 16, 2021	Code Documentation GenerationCode Search	CodeCode Available	0	5
Isotropy Matters: Soft-ZCA Whitening of Embeddings for Semantic Code Search	Nov 26, 2024	Code Search	CodeCode Available	0	5
NS3: Neuro-Symbolic Semantic Code Search	May 21, 2022	Code SearchQuestion Answering	CodeCode Available	0	5
Constructing Multilingual Code Search Dataset Using Neural Machine Translation	Jun 27, 2023	Code SearchMachine Translation	CodeCode Available	0	5
CoNCRA: A Convolutional Neural Network Code Retrieval Approach	Sep 3, 2020	Code SearchRetrieval	CodeCode Available	0	5

Show:10 25 50

← PrevPage 1 of 3Next →

All datasets CodeSearchNet CoDesc CodeXGLUE - AdvTest CodeSearchNet - Ruby CodeXGLUE - WebQueryTest CoIR

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	cpt-code M	Overall	93.5	—	Unverified
2	cpt-code S	Overall	93.4	—	Unverified
3	CodeT5+ 770M	Overall	77.4	—	Unverified
4	GraphCodeBERT	Overall	77.4	—	Unverified
5	CodeT5+ 220M	Overall	77.1	—	Unverified
6	CodeBERT	Overall	76	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Self-attention	Test MRR	0.84	—	Unverified
2	NBOW	Test MRR	0.81	—	Unverified
3	RNN	Test MRR	0.77	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeT5+ 770M	MRR	44.7	—	Unverified
2	CodeT5+ 220M	MRR	43.3	—	Unverified
3	CodeBERT	MRR	27.19	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Uni-SBT	MRR	0.36	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CodeBERT	Accuracy	47.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Voyage-code-002	nDCG@10	56.26	—	Unverified