Semantic Similarity

The main objective Semantic Similarity is to measure the distance between the semantic meanings of a pair of words, phrases, sentences, or documents. For example, the word “car” is more similar to “bus” than it is to “cat”. The two main approaches to measuring Semantic Similarity are knowledge-based approaches and corpus-based, distributional methods.

Source: Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1564 papers

Title	Date	Tasks	Status	Hype	Score
Rethinking the Sample Relations for Few-Shot Classification	Jan 23, 2025	ClassificationContrastive Learning	CodeCode Available	7	5
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function	May 26, 2023	Fact VerificationInformation Retrieval	CodeCode Available	4	5
Automatically Interpreting Millions of Features in Large Language Models	Oct 17, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	3	5
ERNIE: Enhanced Representation through Knowledge Integration	Apr 19, 2019	Chinese Named Entity RecognitionChinese Sentence Pair Classification	CodeCode Available	3	5
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition	May 21, 2025	Earth ObservationObject	CodeCode Available	2	5
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems	Sep 16, 2024	Collaborative FilteringRecommendation Systems	CodeCode Available	2	5
Top2Vec: Distributed Representations of Topics	Aug 19, 2020	LemmatizationSemantic Similarity	CodeCode Available	2	5
Weakly-supervised Audio Separation via Bi-modal Semantic Similarity	Apr 2, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2	5
Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation	Jul 15, 2024	Information RetrievalKnowledge Graphs	CodeCode Available	2	5
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging	Jan 5, 2024	Medical Report GenerationMedical Visual Question Answering	CodeCode Available	2	5
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction	Oct 31, 2023	PredictionSemantic Similarity	CodeCode Available	2	5
BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings	Nov 9, 2023	Language ModelingLanguage Modelling	CodeCode Available	2	5
EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation	Mar 3, 2024	ObjectRepresentation Learning	CodeCode Available	2	5
Large Continual Instruction Assistant	Oct 8, 2024	Question AnsweringSemantic Similarity	CodeCode Available	2	5
Squeezed Attention: Accelerating Long Context Length LLM Inference	Nov 14, 2024	Code GenerationLarge Language Model	CodeCode Available	2	5
LinkBERT: Pretraining Language Models with Document Links	Mar 29, 2022	Document ClassificationLanguage Modeling	CodeCode Available	2	5
PromptBERT: Improving BERT Sentence Embeddings with Prompts	Jan 12, 2022	Contrastive LearningDenoising	CodeCode Available	2	5
Reasoning to Attend: Try to Understand How <SEG> Token Works	Dec 23, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2	5
Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models	Sep 19, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2	5
DeepSim: Semantic similarity metrics for learned image registration	Nov 11, 2020	Image RegistrationSemantic Similarity	CodeCode Available	1	5
Deep Metric Learning by Online Soft Mining and Class-Aware Attention	Nov 4, 2018	Metric LearningPerson Re-Identification	CodeCode Available	1	5
Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis	Sep 20, 2024	Anomaly DetectionFault Diagnosis	CodeCode Available	1	5
ARMAN: Pre-training with Semantically Selecting and Reordering of Sentences for Persian Abstractive Summarization	Sep 9, 2021	Abstractive Text SummarizationDecoder	CodeCode Available	1	5
DataSculpt: Crafting Data Landscapes for Long-Context LLMs through Multi-Objective Partitioning	Sep 2, 2024	Code CompletionCombinatorial Optimization	CodeCode Available	1	5
Cross-lingual Text Classification with Heterogeneous Graph Neural Network	May 24, 2021	ClassificationGraph Neural Network	CodeCode Available	1	5
A Semantic-based Method for Unsupervised Commonsense Question Answering	May 31, 2021	Question AnsweringSemantic Similarity	CodeCode Available	1	5
A Simple Long-Tailed Recognition Baseline via Vision-Language Model	Nov 29, 2021	Contrastive LearningLanguage Modeling	CodeCode Available	1	5
R&R: Metric-guided Adversarial Sentence Generation	Apr 17, 2021	Adversarial AttackGeneral Classification	CodeCode Available	1	5
Deep Representational Re-tuning using Contrastive Tension	Jan 1, 2021	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1	5
AstroCLIP: A Cross-Modal Foundation Model for Galaxies	Oct 4, 2023	Contrastive Learningmodel	CodeCode Available	1	5
DECAF: Deep Extreme Classification with Label Features	Aug 1, 2021	ClassificationExtreme Multi-Label Classification	CodeCode Available	1	5
Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints Voting for Robust 6D Object Pose Estimation	Aug 10, 2023	6D Pose Estimation using RGBglobal-optimization	CodeCode Available	1	5
Describing Sets of Images with Textual-PCA	Oct 21, 2022	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1	5
Context Compression for Auto-regressive Transformers with Sentinel Tokens	Oct 12, 2023	Language ModelingLanguage Modelling	CodeCode Available	1	5
CODER: Knowledge infused cross-lingual medical term embedding for term normalization	Nov 5, 2020	Contrastive LearningKnowledge Graphs	CodeCode Available	1	5
Reconstruct Your Previous Conversations! Comprehensively Investigating Privacy Leakage Risks in Conversations with GPT Models	Feb 5, 2024	Reconstruction AttackSemantic Similarity	CodeCode Available	1	5
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs	May 19, 2023	Question AnsweringSemantic Similarity	CodeCode Available	1	5
CBLUE: A Chinese Biomedical Language Understanding Evaluation Benchmark	Jun 15, 2021	Intent ClassificationMedical Concept Normalization	CodeCode Available	1	5
Catch-A-Waveform: Learning to Generate Audio from a Single Short Example	Jun 11, 2021	Audio GenerationSemantic Similarity	CodeCode Available	1	5
CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation	Apr 17, 2025	RAGRetrieval	CodeCode Available	1	5
CgAT: Center-Guided Adversarial Training for Deep Hashing-Based Retrieval	Apr 18, 2022	Adversarial AttackAdversarial Defense	CodeCode Available	1	5
A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with Bilingual Semantic Similarity Rewards	Jun 27, 2020	Machine Translationreinforcement-learning	CodeCode Available	1	5
Class-relation Knowledge Distillation for Novel Class Discovery	Jul 18, 2023	Knowledge DistillationNovel Class Discovery	CodeCode Available	1	5
CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security Research	Nov 2, 2024	Line DetectionSemantic Similarity	CodeCode Available	1	5
ComStreamClust: a communicative multi-agent approach to text clustering in streaming data	Oct 11, 2020	ClusteringSemantic Similarity	CodeCode Available	1	5
Context-Aware Semantic Similarity Measurement for Unsupervised Word Sense Disambiguation	May 5, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1	5
Attentive Normalization for Conditional Image Generation	Apr 8, 2020	Conditional Image GenerationImage Generation	CodeCode Available	1	5
Crisscrossed Captions: Extended Intramodal and Intermodal Semantic Similarity Judgments for MS-COCO	Apr 30, 2020	Image CaptioningRepresentation Learning	CodeCode Available	1	5
C-STS: Conditional Semantic Textual Similarity	May 24, 2023	Information RetrievalLanguage Model Evaluation	CodeCode Available	1	5
CharacterBERT: Reconciling ELMo and BERT for Word-Level Open-Vocabulary Representations From Characters	Oct 20, 2020	Clinical Concept ExtractionDrug–drug Interaction Extraction	CodeCode Available	1	5

Show:10 25 50

← PrevPage 1 of 32Next →

All datasets Annotated corpus for semantic similarity of clinical trial outcomes (expanded corpus)Annotated corpus for semantic similarity of clinical trial outcomes (original corpus)SICK BIOSSES CHIP-STS ClinicalSTS MedSTS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	93.38	—	Unverified
2	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	91.51	—	Unverified
3	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	90.69	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.16	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.75	—	Unverified
2	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
3	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	86.8	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	84.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Doc2VecC	MSE	0.31	—	Unverified
2	LSTM (Tai et al., 2015)	MSE	0.28	—	Unverified
3	Bidirectional LSTM (Tai et al., 2015)	MSE	0.27	—	Unverified
4	combine-skip (Kiros et al., 2015)	MSE	0.27	—	Unverified
5	Dependency Tree-LSTM (Tai et al., 2015)	MSE	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	Pearson Correlation	0.94	—	Unverified
2	BioLinkBERT (base)	Pearson Correlation	0.93	—	Unverified
3	NCBI_BERT(base) (P+M)	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MacBERT-large	Macro F1	85.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CharacterBERT (base, medical, ensemble)	Pearson Correlation	85.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NCBI_BERT(base) (P+M)	Pearson Correlation	0.85	—	Unverified