Semantic Textual Similarity

Semantic textual similarity deals with determining how similar two pieces of texts are. This can take the form of assigning a score from 1 to 5. Related tasks are paraphrase or duplicate identification.

Image source: Learning Semantic Textual Similarity from Conversations

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 2381 papers

Title	Date	Tasks	Status	Hype
Rethinking the Sample Relations for Few-Shot Classification	Jan 23, 2025	ClassificationContrastive Learning	CodeCode Available	7
LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale	Aug 15, 2022	GPULanguage Modelling	CodeCode Available	5
2D Matryoshka Sentence Embeddings	Feb 22, 2024	RAGRepresentation Learning	CodeCode Available	4
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function	May 26, 2023	Fact VerificationInformation Retrieval	CodeCode Available	4
One Embedder, Any Task: Instruction-Finetuned Text Embeddings	Dec 19, 2022	Information RetrievalLearning Word Embeddings	CodeCode Available	4
MTEB: Massive Text Embedding Benchmark	Oct 13, 2022	BenchmarkingInformation Retrieval	CodeCode Available	4
Automatically Interpreting Millions of Features in Large Language Models	Oct 17, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	3
ERNIE 2.0: A Continual Pre-training Framework for Language Understanding	Jul 29, 2019	Chinese Named Entity RecognitionChinese Reading Comprehension	CodeCode Available	3
ERNIE: Enhanced Representation through Knowledge Integration	Apr 19, 2019	Chinese Named Entity RecognitionChinese Sentence Pair Classification	CodeCode Available	3
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	Oct 11, 2018	Citation Intent ClassificationCommon Sense Reasoning	CodeCode Available	3
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition	May 21, 2025	Earth ObservationObject	CodeCode Available	2
FinMTEB: Finance Massive Text Embedding Benchmark	Feb 16, 2025	ArticlesSemantic Textual Similarity	CodeCode Available	2
Reasoning to Attend: Try to Understand How <SEG> Token Works	Dec 23, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
Squeezed Attention: Accelerating Long Context Length LLM Inference	Nov 14, 2024	Code GenerationLarge Language Model	CodeCode Available	2
Large Continual Instruction Assistant	Oct 8, 2024	Question AnsweringSemantic Similarity	CodeCode Available	2
Linguistic Minimal Pairs Elicit Linguistic Similarity in Large Language Models	Sep 19, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
beeFormer: Bridging the Gap Between Semantic and Interaction Similarity in Recommender Systems	Sep 16, 2024	Collaborative FilteringRecommendation Systems	CodeCode Available	2
Think-on-Graph 2.0: Deep and Faithful Large Language Model Reasoning with Knowledge-guided Retrieval Augmented Generation	Jul 15, 2024	Information RetrievalKnowledge Graphs	CodeCode Available	2
Weakly-supervised Audio Separation via Bi-modal Semantic Similarity	Apr 2, 2024	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	2
EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation	Mar 3, 2024	ObjectRepresentation Learning	CodeCode Available	2
PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging	Jan 5, 2024	Medical Report GenerationMedical Visual Question Answering	CodeCode Available	2
BeLLM: Backward Dependency Enhanced Large Language Model for Sentence Embeddings	Nov 9, 2023	Language ModelingLanguage Modelling	CodeCode Available	2
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction	Oct 31, 2023	PredictionSemantic Similarity	CodeCode Available	2
AnglE-optimized Text Embeddings	Sep 22, 2023	Language ModellingLarge Language Model	CodeCode Available	2
DiffCSE: Difference-based Contrastive Learning for Sentence Embeddings	Apr 21, 2022	Contrastive LearningLanguage Modeling	CodeCode Available	2
PromptBERT: Improving BERT Sentence Embeddings with Prompts	Jan 12, 2022	Contrastive LearningDenoising	CodeCode Available	2
SimCSE: Simple Contrastive Learning of Sentence Embeddings	Apr 18, 2021	Contrastive LearningData Augmentation	CodeCode Available	2
Top2Vec: Distributed Representations of Topics	Aug 19, 2020	LemmatizationSemantic Similarity	CodeCode Available	2
DeBERTa: Decoding-enhanced BERT with Disentangled Attention	Jun 5, 2020	Common Sense ReasoningCoreference Resolution	CodeCode Available	2
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer	Oct 23, 2019	Answer GenerationCommon Sense Reasoning	CodeCode Available	2
ALBERT: A Lite BERT for Self-supervised Learning of Language Representations	Sep 26, 2019	Common Sense ReasoningGPU	CodeCode Available	2
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models	Jun 11, 2025	DiversitySemantic Similarity	CodeCode Available	1
IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory	Jun 1, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
Label-Guided In-Context Learning for Named Entity Recognition	May 29, 2025	In-Context Learningnamed-entity-recognition	CodeCode Available	1
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants	May 26, 2025	ClusteringOut-of-Distribution Generalization	CodeCode Available	1
Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation	May 24, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
R2MED: A Benchmark for Reasoning-Driven Medical Retrieval	May 20, 2025	DiagnosticRe-Ranking	CodeCode Available	1
One-Step Offline Distillation of Diffusion-based Models via Koopman Modeling	May 19, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
ELITE: Embedding-Less retrieval with Iterative Text Exploration	May 17, 2025	graph constructionRAG	CodeCode Available	1
CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation	Apr 17, 2025	RAGRetrieval	CodeCode Available	1
High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight	Mar 19, 2025	Image SegmentationKnowledge Distillation	CodeCode Available	1
SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection	Mar 1, 2025	Human-Object Interaction DetectionLarge Language Model	CodeCode Available	1
Mitigating Hallucinations in Large Vision-Language Models by Adaptively Constraining Information Flow	Feb 28, 2025	HallucinationObject	CodeCode Available	1
MedFILIP: Medical Fine-grained Language-Image Pre-training	Jan 18, 2025	Contrastive LearningDiagnostic	CodeCode Available	1
DiffSim: Taming Diffusion Models for Evaluating Visual Similarity	Dec 19, 2024	Contrastive LearningDenoising	CodeCode Available	1
DuSSS: Dual Semantic Similarity-Supervised Vision-Language Model for Semi-Supervised Medical Image Segmentation	Dec 17, 2024	Contrastive LearningImage Segmentation	CodeCode Available	1
Familiarity: Better Evaluation of Zero-Shot Named Entity Recognition by Quantifying Label Shifts in Synthetic Training Data	Dec 13, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Vid-Morp: Video Moment Retrieval Pretraining from Unlabeled Videos in the Wild	Dec 1, 2024	Moment RetrievalRetrieval	CodeCode Available	1
RelCon: Relative Contrastive Learning for a Motion Foundation Model for Wearable Data	Nov 27, 2024	Activity RecognitionContrastive Learning	CodeCode Available	1
Semantic-Aware Resource Management for C-V2X Platooning via Multi-Agent Reinforcement Learning	Nov 7, 2024	Decision MakingFairness	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 48Next →

All datasets STS Benchmark MTEB MRPC SICK STS13 STS14 STS12 STS15 STS16 MRPC Dev SentEval SICK-R

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SMARTRoBERTa	Dev Pearson Correlation	92.8	—	Unverified
2	DeBERTa (large)	Accuracy	92.5	—	Unverified
3	SMART-BERT	Dev Pearson Correlation	90	—	Unverified
4	MT-DNN-SMART	Pearson Correlation	0.93	—	Unverified
5	StructBERTRoBERTa ensemble	Pearson Correlation	0.93	—	Unverified
6	Mnet-Sim	Pearson Correlation	0.93	—	Unverified
7	XLNet (single model)	Pearson Correlation	0.93	—	Unverified
8	ALBERT	Pearson Correlation	0.93	—	Unverified
9	T5-11B	Pearson Correlation	0.93	—	Unverified
10	RoBERTa	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-UAE	Spearman Correlation	84.54	—	Unverified
2	ST5-XXL	Spearman Correlation	82.63	—	Unverified
3	ST5-Large	Spearman Correlation	81.83	—	Unverified
4	ST5-XL	Spearman Correlation	81.66	—	Unverified
5	ST5-Base	Spearman Correlation	81.14	—	Unverified
6	MPNet-multilingual	Spearman Correlation	80.73	—	Unverified
7	SGPT-5.8B-nli	Spearman Correlation	80.53	—	Unverified
8	MPNet	Spearman Correlation	80.28	—	Unverified
9	MiniLM-L12	Spearman Correlation	79.8	—	Unverified
10	SimCSE-BERT-sup	Spearman Correlation	79.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MT-DNN-SMART	Accuracy	93.7	—	Unverified
2	ALBERT	Accuracy	93.4	—	Unverified
3	RoBERTa (ensemble)	Accuracy	92.3	—	Unverified
4	BigBird	F1	91.5	—	Unverified
5	StructBERTRoBERTa ensemble	Accuracy	91.5	—	Unverified
6	FLOATER-large	Accuracy	91.4	—	Unverified
7	SMART	Accuracy	91.3	—	Unverified
8	RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	Accuracy	91	—	Unverified
9	RoBERTa-large 355M + Entailment as Few-shot Learner	F1	91	—	Unverified
10	SpanBERT	Accuracy	90.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.82	—	Unverified
2	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.82	—	Unverified
3	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.82	—	Unverified
4	SimCSE-RoBERTalarge	Spearman Correlation	0.82	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.81	—	Unverified
6	SentenceBERT	Spearman Correlation	0.75	—	Unverified
7	SRoBERTa-NLI-base	Spearman Correlation	0.74	—	Unverified
8	SRoBERTa-NLI-large	Spearman Correlation	0.74	—	Unverified
9	Dino (STS/̄🦕)	Spearman Correlation	0.74	—	Unverified
10	SBERT-NLI-large	Spearman Correlation	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-LLaMA-7B	Spearman Correlation	0.91	—	Unverified
2	AnglE-LLaMA-7B-v2	Spearman Correlation	0.91	—	Unverified
3	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.9	—	Unverified
4	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.9	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.9	—	Unverified
6	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.89	—	Unverified
7	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.89	—	Unverified
8	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
9	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
10	SimCSE-RoBERTa-large	Spearman Correlation	0.87	—	Unverified