Semantic Similarity

The main objective Semantic Similarity is to measure the distance between the semantic meanings of a pair of words, phrases, sentences, or documents. For example, the word “car” is more similar to “bus” than it is to “cat”. The two main approaches to measuring Semantic Similarity are knowledge-based approaches and corpus-based, distributional methods.

Source: Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 1564 papers

Title	Date	Tasks	Status	Hype
Rethinking the Sample Relations for Few-Shot Classification	Jan 23, 2025	ClassificationContrastive Learning	CodeCode Available	7
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function	May 26, 2023	Fact VerificationInformation Retrieval	CodeCode Available	4
Automatically Interpreting Millions of Features in Large Language Models	Oct 17, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	3
ERNIE: Enhanced Representation through Knowledge Integration	Apr 19, 2019	Chinese Named Entity RecognitionChinese Sentence Pair Classification	CodeCode Available	3
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition	May 21, 2025	Earth ObservationObject	CodeCode Available	2
Reasoning to Attend: Try to Understand How <SEG> Token Works	Dec 23, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
Squeezed Attention: Accelerating Long Context Length LLM Inference	Nov 14, 2024	Code GenerationLarge Language Model	CodeCode Available	2
Large Continual Instruction Assistant	Oct 8, 2024	Question AnsweringSemantic Similarity	CodeCode Available	2
Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models	Sep 19, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems	Sep 16, 2024	Collaborative FilteringRecommendation Systems	CodeCode Available	2
Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation	Jul 15, 2024	Information RetrievalKnowledge Graphs	CodeCode Available	2
Weakly-supervised Audio Separation via Bi-modal Semantic Similarity	Apr 2, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation	Mar 3, 2024	ObjectRepresentation Learning	CodeCode Available	2
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging	Jan 5, 2024	Medical Report GenerationMedical Visual Question Answering	CodeCode Available	2
BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings	Nov 9, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction	Oct 31, 2023	PredictionSemantic Similarity	CodeCode Available	2
LinkBERT: Pretraining Language Models with Document Links	Mar 29, 2022	Document ClassificationLanguage Modeling	CodeCode Available	2
PromptBERT: Improving BERT Sentence Embeddings with Prompts	Jan 12, 2022	Contrastive LearningDenoising	CodeCode Available	2
Top2Vec: Distributed Representations of Topics	Aug 19, 2020	LemmatizationSemantic Similarity	CodeCode Available	2
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models	Jun 11, 2025	DiversitySemantic Similarity	CodeCode Available	1
IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory	Jun 1, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
Label-Guided In-Context Learning for Named Entity Recognition	May 29, 2025	In-Context Learningnamed-entity-recognition	CodeCode Available	1
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants	May 26, 2025	ClusteringOut-of-Distribution Generalization	CodeCode Available	1
Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation	May 24, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
R2MED: A Benchmark for Reasoning-Driven Medical Retrieval	May 20, 2025	DiagnosticRe-Ranking	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 63Next →

All datasets Annotated corpus for semantic similarity of clinical trial outcomes (expanded corpus)Annotated corpus for semantic similarity of clinical trial outcomes (original corpus)SICK BIOSSES CHIP-STS ClinicalSTS MedSTS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	93.38	—	Unverified
2	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	91.51	—	Unverified
3	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	90.69	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.16	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.75	—	Unverified
2	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
3	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	86.8	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	84.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Doc2VecC	MSE	0.31	—	Unverified
2	LSTM (Tai et al., 2015)	MSE	0.28	—	Unverified
3	Bidirectional LSTM (Tai et al., 2015)	MSE	0.27	—	Unverified
4	combine-skip (Kiros et al., 2015)	MSE	0.27	—	Unverified
5	Dependency Tree-LSTM (Tai et al., 2015)	MSE	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	Pearson Correlation	0.94	—	Unverified
2	BioLinkBERT (base)	Pearson Correlation	0.93	—	Unverified
3	NCBI_BERT(base) (P+M)	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MacBERT-large	Macro F1	85.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CharacterBERT (base, medical, ensemble)	Pearson Correlation	85.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NCBI_BERT(base) (P+M)	Pearson Correlation	0.85	—	Unverified