Semantic Similarity

The main objective Semantic Similarity is to measure the distance between the semantic meanings of a pair of words, phrases, sentences, or documents. For example, the word “car” is more similar to “bus” than it is to “cat”. The two main approaches to measuring Semantic Similarity are knowledge-based approaches and corpus-based, distributional methods.

Source: Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 201–250 of 1564 papers

Title	Date	Tasks	Status	Hype	Score
SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages	Feb 13, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1	5
Balancing Lexical and Semantic Quality in Abstractive Summarization	May 17, 2023	Abstractive Text SummarizationRe-Ranking	CodeCode Available	1	5
Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning	Apr 17, 2020	CPULanguage Modeling	CodeCode Available	1	5
SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection	Mar 1, 2025	Human-Object Interaction DetectionLarge Language Model	CodeCode Available	1	5
Language-agnostic BERT Sentence Embedding	Jul 3, 2020	Language ModelingLanguage Modelling	CodeCode Available	1	5
Familiarity: Better Evaluation of Zero-Shot Named Entity Recognition by Quantifying Label Shifts in Synthetic Training Data	Dec 13, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1	5
FedSSA: Semantic Similarity-based Aggregation for Efficient Model-Heterogeneous Personalized Federated Learning	Dec 14, 2023	Computational EfficiencyFederated Learning	CodeCode Available	1	5
Few-Shot Image Classification Benchmarks are Too Far From Reality: Build Back Better with Semantic Task Sampling	May 10, 2022	Few-Shot Image ClassificationGeneral Classification	CodeCode Available	1	5
Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation	May 24, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1	5
Few-Shot Class-Incremental Learning via Training-Free Prototype Calibration	Dec 8, 2023	class-incremental learningClass Incremental Learning	CodeCode Available	1	5
MedFILIP: Medical Fine-grained Language-Image Pre-training	Jan 18, 2025	Contrastive LearningDiagnostic	CodeCode Available	1	5
Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity	Mar 10, 2022	Adversarial AttackSemantic Similarity	CodeCode Available	1	5
FOCUS: Effective Embedding Initialization for Monolingual Specialization of Multilingual Models	May 23, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
SPICE: Semantic Pseudo-labeling for Image Clustering	Mar 17, 2021	ClusteringContrastive Learning	CodeCode Available	1	5
SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization	May 7, 2020	Document SummarizationMulti-Document Summarization	CodeCode Available	1	5
Full Automation of Goal-driven LLM Dialog Threads with And-Or Recursors and Refiner Oracles	Jun 24, 2023	Recommendation SystemsSemantic Similarity	CodeCode Available	1	5
SynWMD: Syntax-aware Word Mover's Distance for Sentence Similarity Evaluation	Jun 20, 2022	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1	5
Generalized Product Quantization Network for Semi-supervised Image Retrieval	Feb 26, 2020	Image RetrievalMetric Learning	CodeCode Available	1	5
On the Effectiveness of Sentence Encoding for Intent Detection Meta-Learning	Jul 1, 2022	Intent DetectionMeta-Learning	CodeCode Available	1	5
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models	Dec 15, 2023	BenchmarkingCode Summarization	CodeCode Available	1	5
Self-Supervised Document Similarity Ranking via Contextualized Language Models and Hierarchical Inference	Jun 2, 2021	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1	5
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants	May 26, 2025	ClusteringOut-of-Distribution Generalization	CodeCode Available	1	5
Investigating the Effects of Word Substitution Errors on Sentence Embeddings	Nov 16, 2018	Automatic Speech RecognitionAutomatic Speech Recognition (ASR)	CodeCode Available	0	5
Integrating Visual and Semantic Similarity Using Hierarchies for Image Retrieval	Aug 16, 2023	Content-Based Image RetrievalImage Retrieval	CodeCode Available	0	5
Calculating the similarity between words and sentences using a lexical database and corpus statistics	Feb 15, 2018	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	0	5
Interpretable Word Sense Representations via Definition Generation: The Case of Semantic Change Analysis	May 19, 2023	Language ModelingLanguage Modelling	CodeCode Available	0	5
Jmp8 at SemEval-2017 Task 2: A simple and general distributional approach to estimate word similarity	Aug 1, 2017	Dimensionality ReductionSemantic Similarity	CodeCode Available	0	5
INO at Factify 2: Structure Coherence based Multi-Modal Fact Verification	Mar 2, 2023	Claim VerificationFact Verification	CodeCode Available	0	5
Improving Semantic Relevance for Sequence-to-Sequence Learning of Chinese Social Media Text Summarization	Jun 8, 2017	DecoderSemantic Similarity	CodeCode Available	0	5
Improved Semantic Representations From Tree-Structured Long Short-Term Memory Networks	Feb 28, 2015	General ClassificationSemantic Similarity	CodeCode Available	0	5
Image Similarity using An Ensemble of Context-Sensitive Models	Jan 15, 2024	Dimensionality ReductionSemantic Similarity	CodeCode Available	0	5
Improving Adversarial Robustness with Self-Paced Hard-Class Pair Reweighting	Oct 26, 2022	Adversarial RobustnessModel Optimization	CodeCode Available	0	5
Instance Smoothed Contrastive Learning for Unsupervised Sentence Embedding	May 12, 2023	Contrastive LearningSemantic Similarity	CodeCode Available	0	5
Joint Word Representation Learning using a Corpus and a Semantic Lexicon	Nov 19, 2015	Representation LearningSemantic Similarity	CodeCode Available	0	5
An Unsupervised Word Sense Disambiguation System for Under-Resourced Languages	Apr 27, 2018	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	0	5
Hybrid Semantic Recommender System for Chemical Compounds	Jan 21, 2020	Collaborative FilteringRecommendation Systems	CodeCode Available	0	5
A Generalized Method for Automated Multilingual Loanword Detection	Oct 1, 2022	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	0	5
Bridging the Gap between Structural and Semantic Similarity in Diverse Planning	Oct 2, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	0	5
Identifying Cognate Sets Across Dictionaries of Related Languages	Sep 1, 2017	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	0	5
Identifying Semantic Divergences in Parallel Text without Annotations	Mar 29, 2018	Machine TranslationSemantic Similarity	CodeCode Available	0	5
HybridCR: Weakly-Supervised 3D Point Cloud Semantic Segmentation via Hybrid Contrastive Regularization	Jan 1, 2022	DiversitySemantic Segmentation	CodeCode Available	0	5
ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge	Jun 17, 2025	BenchmarkingRetrieval	CodeCode Available	0	5
Effective and Imperceptible Adversarial Textual Attack via Multi-objectivization	Nov 2, 2021	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	0	5
Historical Ink: Semantic Shift Detection for 19th Century Spanish	Jul 8, 2024	Masked Language ModelingSemantic Shift Detection	CodeCode Available	0	5
Bridging LLM-Generated Code and Requirements: Reverse Generation technique and SBC Metric for Developer Insights	Feb 11, 2025	Code GenerationSemantic Similarity	CodeCode Available	0	5
Specializing Unsupervised Pretraining Models for Word-Level Semantic Similarity	Sep 5, 2019	Language ModelingLanguage Modelling	CodeCode Available	0	5
How does BERT capture semantics? A closer look at polysemous words	Nov 1, 2020	Semanticity predictionSemantic Similarity	CodeCode Available	0	5
20min-XD: A Comparable Corpus of Swiss News Articles	Apr 30, 2025	ArticlesSemantic Similarity	CodeCode Available	0	5
Bridging Continuous and Discrete Spaces: Interpretable Sentence Representation Learning via Compositional Operations	May 24, 2023	DecoderRepresentation Learning	CodeCode Available	0	5
HQA-Attack: Toward High Quality Black-Box Hard-Label Adversarial Attack on Text	Feb 2, 2024	Adversarial AttackHard-label Attack	CodeCode Available	0	5

Show:10 25 50

← PrevPage 5 of 32Next →

All datasets Annotated corpus for semantic similarity of clinical trial outcomes (expanded corpus)Annotated corpus for semantic similarity of clinical trial outcomes (original corpus)SICK BIOSSES CHIP-STS ClinicalSTS MedSTS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	93.38	—	Unverified
2	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	91.51	—	Unverified
3	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	90.69	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.16	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.75	—	Unverified
2	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
3	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	86.8	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	84.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Doc2VecC	MSE	0.31	—	Unverified
2	LSTM (Tai et al., 2015)	MSE	0.28	—	Unverified
3	Bidirectional LSTM (Tai et al., 2015)	MSE	0.27	—	Unverified
4	combine-skip (Kiros et al., 2015)	MSE	0.27	—	Unverified
5	Dependency Tree-LSTM (Tai et al., 2015)	MSE	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	Pearson Correlation	0.94	—	Unverified
2	BioLinkBERT (base)	Pearson Correlation	0.93	—	Unverified
3	NCBI_BERT(base) (P+M)	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MacBERT-large	Macro F1	85.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CharacterBERT (base, medical, ensemble)	Pearson Correlation	85.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NCBI_BERT(base) (P+M)	Pearson Correlation	0.85	—	Unverified