Semantic Textual Similarity

Semantic textual similarity deals with determining how similar two pieces of texts are. This can take the form of assigning a score from 1 to 5. Related tasks are paraphrase or duplicate identification.

Image source: Learning Semantic Textual Similarity from Conversations

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 251–300 of 2381 papers

Title	Date	Tasks	Status	Hype
Why Not Simply Translate? A First Swedish Evaluation Benchmark for Semantic Similarity	Sep 7, 2020	Machine TranslationSemantic Similarity	CodeCode Available	1
Linked Credibility Reviews for Explainable Misinformation Detection	Aug 28, 2020	MisinformationSemantic Similarity	CodeCode Available	1
Paraphrase Generation as Zero-Shot Multilingual Translation: Disentangling Semantic Similarity from Lexical and Syntactic Diversity	Aug 11, 2020	DiversityMachine Translation	CodeCode Available	1
Big Bird: Transformers for Longer Sequences	Jul 28, 2020	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
Hard negative examples are hard, but useful	Jul 24, 2020	Image RetrievalMetric Learning	CodeCode Available	1
Language-agnostic BERT Sentence Embedding	Jul 3, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
tBERT: Topic Models and BERT Joining Forces for Semantic Similarity Detection	Jul 1, 2020	Natural Language UnderstandingSemantic Similarity	CodeCode Available	1
A Deep Reinforced Model for Zero-Shot Cross-Lingual Summarization with Bilingual Semantic Similarity Rewards	Jun 27, 2020	Machine Translationreinforcement-learning	CodeCode Available	1
Automatic Generation of Topic Labels	May 29, 2020	DescriptiveInformation Retrieval	CodeCode Available	1
SUPERT: Towards New Frontiers in Unsupervised Evaluation Metrics for Multi-Document Summarization	May 7, 2020	Document SummarizationMulti-Document Summarization	CodeCode Available	1
Neural CRF Model for Sentence Alignment in Text Simplification	May 5, 2020	ArticlesSemantic Similarity	CodeCode Available	1
Discrete Optimization for Unsupervised Sentence Summarization with Word-Level Extraction	May 4, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
On the Limitations of Cross-lingual Encoders as Exposed by Reference-Free Machine Translation Evaluation	May 3, 2020	Cross-Lingual TransferLanguage Modeling	CodeCode Available	1
Synthesizer: Rethinking Self-Attention in Transformer Models	May 2, 2020	Abstractive Text SummarizationDialogue Generation	CodeCode Available	1
Crisscrossed Captions: Extended Intramodal and Intermodal Semantic Similarity Judgments for MS-COCO	Apr 30, 2020	Image CaptioningRepresentation Learning	CodeCode Available	1
Word Rotator's Distance	Apr 30, 2020	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning	Apr 17, 2020	CPULanguage Modeling	CodeCode Available	1
Attentive Normalization for Conditional Image Generation	Apr 8, 2020	Conditional Image GenerationImage Generation	CodeCode Available	1
KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding	Apr 7, 2020	Natural Language InferenceNatural Language Understanding	CodeCode Available	1
Text-Guided Neural Image Inpainting	Apr 7, 2020	DescriptiveImage Generation	CodeCode Available	1
Evaluating Multimodal Representations on Visual Semantic Textual Similarity	Apr 4, 2020	BenchmarkingImage Captioning	CodeCode Available	1
Learning to Encode Position for Transformer with Continuous Dynamical Model	Mar 13, 2020	Inductive BiasLinguistic Acceptability	CodeCode Available	1
Semantic Pyramid for Image Generation	Mar 13, 2020	General ClassificationImage Generation	CodeCode Available	1
Generalized Product Quantization Network for Semi-supervised Image Retrieval	Feb 26, 2020	Image RetrievalMetric Learning	CodeCode Available	1
Learning by Semantic Similarity Makes Abstractive Summarization Better	Feb 18, 2020	Abstractive Text SummarizationSemantic Similarity	CodeCode Available	1
SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word Models	Feb 16, 2020	Semantic Textual SimilaritySentence	CodeCode Available	1
Symmetrical Synthesis for Deep Metric Learning	Jan 31, 2020	ClusteringImage Retrieval	CodeCode Available	1
SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization	Nov 8, 2019	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
Q8BERT: Quantized 8Bit BERT	Oct 14, 2019	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter	Oct 2, 2019	Hate Speech DetectionKnowledge Distillation	CodeCode Available	1
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks	Aug 27, 2019	ClusteringLinear-Probe Classification	CodeCode Available	1
RoBERTa: A Robustly Optimized BERT Pretraining Approach	Jul 26, 2019	Common Sense ReasoningDocument Image Classification	CodeCode Available	1
XLNet: Generalized Autoregressive Pretraining for Language Understanding	Jun 19, 2019	Audio Question AnsweringChinese Reading Comprehension	CodeCode Available	1
Deep Metric Learning by Online Soft Mining and Class-Aware Attention	Nov 4, 2018	Metric LearningPerson Re-Identification	CodeCode Available	1
MedSTS: A Resource for Clinical Semantic Textual Similarity	Aug 28, 2018	Decision MakingSemantic Similarity	CodeCode Available	1
Improving Language Understanding by Generative Pre-Training	Jun 11, 2018	Cloze TestDocument Classification	CodeCode Available	1
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering	May 24, 2018	Question AnsweringRelation	CodeCode Available	1
Universal Sentence Encoder	Mar 29, 2018	Conversational Response SelectionSemantic Textual Similarity	CodeCode Available	1
SemEval-2017 Task 1: Semantic Textual Similarity - Multilingual and Cross-lingual Focused Evaluation	Jul 31, 2017	Machine TranslationQuestion Answering	CodeCode Available	1
Supervised Learning of Universal Sentence Representations from Natural Language Inference Data	May 5, 2017	Cross-Lingual Natural Language InferenceNatural Language Inference	CodeCode Available	1
No Fuss Distance Metric Learning using Proxies	Mar 21, 2017	Metric LearningSemantic Similarity	CodeCode Available	1
Label Noise Reduction in Entity Typing by Heterogeneous Partial-Label Embedding	Feb 17, 2016	Entity TypingSemantic Similarity	CodeCode Available	1
Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy	Sep 20, 1997	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
SemCSE: Semantic Contrastive Sentence Embeddings Using LLM-Generated Summaries For Scientific Abstracts	Jul 17, 2025	Contrastive LearningSemantic Similarity	—Unverified	0
SARA: Selective and Adaptive Retrieval-augmented Generation with Context Compression	Jul 8, 2025	Evidence SelectionRAG	—Unverified	0
FA: Forced Prompt Learning of Vision-Language Models for Out-of-Distribution Detection	Jul 6, 2025	Out-of-Distribution DetectionOut of Distribution (OOD) Detection	CodeCode Available	0
LineRetriever: Planning-Aware Observation Reduction for Web Agents	Jun 30, 2025	RetrievalSemantic Similarity	—Unverified	0
DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning	Jun 26, 2025	cross-modal alignmentRepresentation Learning	—Unverified	0
Enhancing Automatic Term Extraction with Large Language Models via Syntactic Retrieval	Jun 26, 2025	Information RetrievalMachine Translation	—Unverified	0
Intrinsic vs. Extrinsic Evaluation of Czech Sentence Embeddings: Semantic Relevance Doesn't Help with MT Evaluation	Jun 25, 2025	Machine TranslationSemantic Similarity	—Unverified	0

Show:10 25 50

← PrevPage 6 of 48Next →

All datasets STS Benchmark MTEB MRPC SICK STS13 STS14 STS12 STS15 STS16 MRPC Dev SentEval SICK-R

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SMARTRoBERTa	Dev Pearson Correlation	92.8	—	Unverified
2	DeBERTa (large)	Accuracy	92.5	—	Unverified
3	SMART-BERT	Dev Pearson Correlation	90	—	Unverified
4	MT-DNN-SMART	Pearson Correlation	0.93	—	Unverified
5	StructBERTRoBERTa ensemble	Pearson Correlation	0.93	—	Unverified
6	Mnet-Sim	Pearson Correlation	0.93	—	Unverified
7	XLNet (single model)	Pearson Correlation	0.93	—	Unverified
8	ALBERT	Pearson Correlation	0.93	—	Unverified
9	T5-11B	Pearson Correlation	0.93	—	Unverified
10	RoBERTa	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-UAE	Spearman Correlation	84.54	—	Unverified
2	ST5-XXL	Spearman Correlation	82.63	—	Unverified
3	ST5-Large	Spearman Correlation	81.83	—	Unverified
4	ST5-XL	Spearman Correlation	81.66	—	Unverified
5	ST5-Base	Spearman Correlation	81.14	—	Unverified
6	MPNet-multilingual	Spearman Correlation	80.73	—	Unverified
7	SGPT-5.8B-nli	Spearman Correlation	80.53	—	Unverified
8	MPNet	Spearman Correlation	80.28	—	Unverified
9	MiniLM-L12	Spearman Correlation	79.8	—	Unverified
10	SimCSE-BERT-sup	Spearman Correlation	79.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MT-DNN-SMART	Accuracy	93.7	—	Unverified
2	ALBERT	Accuracy	93.4	—	Unverified
3	RoBERTa (ensemble)	Accuracy	92.3	—	Unverified
4	BigBird	F1	91.5	—	Unverified
5	StructBERTRoBERTa ensemble	Accuracy	91.5	—	Unverified
6	FLOATER-large	Accuracy	91.4	—	Unverified
7	SMART	Accuracy	91.3	—	Unverified
8	RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	Accuracy	91	—	Unverified
9	RoBERTa-large 355M + Entailment as Few-shot Learner	F1	91	—	Unverified
10	SpanBERT	Accuracy	90.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.82	—	Unverified
2	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.82	—	Unverified
3	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.82	—	Unverified
4	SimCSE-RoBERTalarge	Spearman Correlation	0.82	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.81	—	Unverified
6	SentenceBERT	Spearman Correlation	0.75	—	Unverified
7	SRoBERTa-NLI-base	Spearman Correlation	0.74	—	Unverified
8	SRoBERTa-NLI-large	Spearman Correlation	0.74	—	Unverified
9	Dino (STS/̄🦕)	Spearman Correlation	0.74	—	Unverified
10	SBERT-NLI-large	Spearman Correlation	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-LLaMA-7B	Spearman Correlation	0.91	—	Unverified
2	AnglE-LLaMA-7B-v2	Spearman Correlation	0.91	—	Unverified
3	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.9	—	Unverified
4	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.9	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.9	—	Unverified
6	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.89	—	Unverified
7	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.89	—	Unverified
8	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
9	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
10	SimCSE-RoBERTa-large	Spearman Correlation	0.87	—	Unverified