Semantic Similarity

The main objective Semantic Similarity is to measure the distance between the semantic meanings of a pair of words, phrases, sentences, or documents. For example, the word “car” is more similar to “bus” than it is to “cat”. The two main approaches to measuring Semantic Similarity are knowledge-based approaches and corpus-based, distributional methods.

Source: Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1451–1475 of 1564 papers

Title	Date	Tasks	Status
UMBCLU at SemEval-2024 Task 1A and 1C: Semantic Textual Relatedness with and without machine translation	Feb 20, 2024	Machine TranslationNatural Language Understanding	CodeCode Available
LyricSIM: A novel Dataset and Benchmark for Similarity Detection in Spanish Song LyricS	Jun 2, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
Textual analysis of artificial intelligence manuscripts reveals features associated with peer review outcome	Oct 21, 2019	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
Urban Traffic Accident Risk Prediction Revisited: Regionality, Proximity, Similarity and Sparsity	Jul 29, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
Machine Translation Hallucination Detection for Low and High Resource Languages using Large Language Models	Jul 23, 2024	HallucinationMachine Translation	CodeCode Available
Investigating the Frequency Distortion of Word Embeddings and Its Impact on Bias Metrics	Nov 15, 2022	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
Concept-Level Explainability for Auditing & Steering LLM Responses	May 12, 2025	Prompt EngineeringSemantic Similarity	CodeCode Available
Making Fast Graph-based Algorithms with Graph Metric Embeddings	Jun 17, 2019	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
Rematch: Robust and Efficient Matching of Local Knowledge Graphs to Improve Structural and Semantic Similarity	Apr 2, 2024	Abstract Meaning RepresentationFact Checking	CodeCode Available
Representation learning for very short texts using weighted word embedding aggregation	Jul 2, 2016	Event DetectionNews Recommendation	CodeCode Available
Augmenting Reddit Posts to Determine Wellness Dimensions impacting Mental Health	Jun 6, 2023	Data AugmentationSemantic Similarity	CodeCode Available
Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe	Jun 6, 2024	DecoderRetrieval	CodeCode Available
FAT ALBERT: Finding Answers in Large Texts using Semantic Similarity Attention Layer based on BERT	Aug 22, 2020	Multiple-choiceQuestion Answering	CodeCode Available
FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments	Jul 13, 2024	Entity LinkingNatural Language Inference	CodeCode Available
The Distributional Hypothesis Does Not Fully Explain the Benefits of Masked Language Model Pretraining	Oct 25, 2023	Language ModelingLanguage Modelling	CodeCode Available
MathLingBudapest: Concept Networks for Semantic Similarity	Jun 1, 2015	Graph SimilaritySemantic Similarity	CodeCode Available
Augmenting Neural Response Generation with Context-Aware Topical Attention	Nov 2, 2018	DecoderOpen-Domain Dialog	CodeCode Available
Short Text Hashing Improved by Integrating Multi-Granularity Topics and Tags	Mar 10, 2015	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
Fake News Detection After LLM Laundering: Measurement and Explanation	Jan 29, 2025	Fake News DetectionMisinformation	CodeCode Available
Supervised Online Hashing via Hadamard Codebook Learning	Apr 28, 2019	RetrievalSemantic Similarity	CodeCode Available
The Impact of Word Splitting on the Semantic Content of Contextualized Word Representations	Feb 22, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
CompiLIG at SemEval-2017 Task 1: Cross-Language Plagiarism Detection Methods for Semantic Textual Similarity	Apr 5, 2017	Semantic SimilaritySemantic Textual Similarity	CodeCode Available
Comparative Evaluation of Label-Agnostic Selection Bias in Multilingual Hate Speech Datasets	Nov 1, 2020	Hate Speech DetectionSelection bias	CodeCode Available
Adversarial Self-Attention for Language Understanding	Jun 25, 2022	Machine Reading ComprehensionNamed Entity Recognition (NER)	CodeCode Available
Comment Ranking Diversification in Forum Discussions	Feb 27, 2020	Re-RankingSemantic Similarity	CodeCode Available

Show:10 25 50

← PrevPage 59 of 63Next →

All datasets Annotated corpus for semantic similarity of clinical trial outcomes (expanded corpus)Annotated corpus for semantic similarity of clinical trial outcomes (original corpus)SICK BIOSSES CHIP-STS ClinicalSTS MedSTS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	93.38	—	Unverified
2	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	91.51	—	Unverified
3	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	90.69	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.16	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.75	—	Unverified
2	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
3	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	86.8	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	84.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Doc2VecC	MSE	0.31	—	Unverified
2	LSTM (Tai et al., 2015)	MSE	0.28	—	Unverified
3	Bidirectional LSTM (Tai et al., 2015)	MSE	0.27	—	Unverified
4	combine-skip (Kiros et al., 2015)	MSE	0.27	—	Unverified
5	Dependency Tree-LSTM (Tai et al., 2015)	MSE	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	Pearson Correlation	0.94	—	Unverified
2	BioLinkBERT (base)	Pearson Correlation	0.93	—	Unverified
3	NCBI_BERT(base) (P+M)	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MacBERT-large	Macro F1	85.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CharacterBERT (base, medical, ensemble)	Pearson Correlation	85.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NCBI_BERT(base) (P+M)	Pearson Correlation	0.85	—	Unverified