Semantic Similarity

The main objective Semantic Similarity is to measure the distance between the semantic meanings of a pair of words, phrases, sentences, or documents. For example, the word “car” is more similar to “bus” than it is to “cat”. The two main approaches to measuring Semantic Similarity are knowledge-based approaches and corpus-based, distributional methods.

Source: Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 1564 papers

Title	Date	Tasks	Status	Hype
Rethinking the Sample Relations for Few-Shot Classification	Jan 23, 2025	ClassificationContrastive Learning	CodeCode Available	7
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function	May 26, 2023	Fact VerificationInformation Retrieval	CodeCode Available	4
ERNIE: Enhanced Representation through Knowledge Integration	Apr 19, 2019	Chinese Named Entity RecognitionChinese Sentence Pair Classification	CodeCode Available	3
Automatically Interpreting Millions of Features in Large Language Models	Oct 17, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	3
Top2Vec: Distributed Representations of Topics	Aug 19, 2020	LemmatizationSemantic Similarity	CodeCode Available	2
Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation	Jul 15, 2024	Information RetrievalKnowledge Graphs	CodeCode Available	2
Large Continual Instruction Assistant	Oct 8, 2024	Question AnsweringSemantic Similarity	CodeCode Available	2
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging	Jan 5, 2024	Medical Report GenerationMedical Visual Question Answering	CodeCode Available	2
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction	Oct 31, 2023	PredictionSemantic Similarity	CodeCode Available	2
PromptBERT: Improving BERT Sentence Embeddings with Prompts	Jan 12, 2022	Contrastive LearningDenoising	CodeCode Available	2
Weakly-supervised Audio Separation via Bi-modal Semantic Similarity	Apr 2, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems	Sep 16, 2024	Collaborative FilteringRecommendation Systems	CodeCode Available	2
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition	May 21, 2025	Earth ObservationObject	CodeCode Available	2
Reasoning to Attend: Try to Understand How <SEG> Token Works	Dec 23, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings	Nov 9, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models	Sep 19, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation	Mar 3, 2024	ObjectRepresentation Learning	CodeCode Available	2
Squeezed Attention: Accelerating Long Context Length LLM Inference	Nov 14, 2024	Code GenerationLarge Language Model	CodeCode Available	2
LinkBERT: Pretraining Language Models with Document Links	Mar 29, 2022	Document ClassificationLanguage Modeling	CodeCode Available	2
CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias	Aug 24, 2023	DiversityLanguage Modeling	CodeCode Available	1
Calibrating Higher-Order Statistics for Few-Shot Class-Incremental Learning with Pre-trained Vision Transformers	Apr 9, 2024	class-incremental learningClass Incremental Learning	CodeCode Available	1
Catch-A-Waveform: Learning to Generate Audio from a Single Short Example	Jun 11, 2021	Audio GenerationSemantic Similarity	CodeCode Available	1
3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation	Jun 13, 2024	Autonomous DrivingObject	CodeCode Available	1
Automatic Generation of Topic Labels	May 29, 2020	DescriptiveInformation Retrieval	CodeCode Available	1
Balancing Lexical and Semantic Quality in Abstractive Summarization	May 17, 2023	Abstractive Text SummarizationRe-Ranking	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 63Next →

All datasets Annotated corpus for semantic similarity of clinical trial outcomes (expanded corpus)Annotated corpus for semantic similarity of clinical trial outcomes (original corpus)SICK BIOSSES CHIP-STS ClinicalSTS MedSTS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	93.38	—	Unverified
2	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	91.51	—	Unverified
3	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	90.69	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.16	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.75	—	Unverified
2	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
3	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	86.8	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	84.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Doc2VecC	MSE	0.31	—	Unverified
2	LSTM (Tai et al., 2015)	MSE	0.28	—	Unverified
3	Bidirectional LSTM (Tai et al., 2015)	MSE	0.27	—	Unverified
4	combine-skip (Kiros et al., 2015)	MSE	0.27	—	Unverified
5	Dependency Tree-LSTM (Tai et al., 2015)	MSE	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	Pearson Correlation	0.94	—	Unverified
2	BioLinkBERT (base)	Pearson Correlation	0.93	—	Unverified
3	NCBI_BERT(base) (P+M)	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MacBERT-large	Macro F1	85.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CharacterBERT (base, medical, ensemble)	Pearson Correlation	85.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NCBI_BERT(base) (P+M)	Pearson Correlation	0.85	—	Unverified