Semantic Textual Similarity

Semantic textual similarity deals with determining how similar two pieces of texts are. This can take the form of assigning a score from 1 to 5. Related tasks are paraphrase or duplicate identification.

Image source: Learning Semantic Textual Similarity from Conversations

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 601–650 of 2381 papers

Title	Date	Tasks	Status	Score
FAT ALBERT: Finding Answers in Large Texts using Semantic Similarity Attention Layer based on BERT	Aug 22, 2020	Multiple-choiceQuestion Answering	CodeCode Available	5
FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments	Jul 13, 2024	Entity LinkingNatural Language Inference	CodeCode Available	5
Supervised Online Hashing via Hadamard Codebook Learning	Apr 28, 2019	RetrievalSemantic Similarity	CodeCode Available	5
FA: Forced Prompt Learning of Vision-Language Models for Out-of-Distribution Detection	Jul 6, 2025	Out-of-Distribution DetectionOut of Distribution (OOD) Detection	CodeCode Available	5
Fake News Detection After LLM Laundering: Measurement and Explanation	Jan 29, 2025	Fake News DetectionMisinformation	CodeCode Available	5
Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity	Jun 1, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	5
Exploring Key Point Analysis with Pairwise Generation and Graph Partitioning	Apr 17, 2024	Argument Mininggraph partitioning	CodeCode Available	5
Analyzing how BERT performs entity matching	Apr 1, 2022	Entity ResolutionSemantic Similarity	CodeCode Available	5
Autoencoding Pixies: Amortised Variational Inference with Graph Convolutions for Functional Distributional Semantics	May 6, 2020	Language ModelingLanguage Modelling	CodeCode Available	5
Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs for Semantic Sentence Embeddings	Oct 5, 2021	Semantic Textual SimilaritySentence	CodeCode Available	5
Exploring RWKV for Sentence Embeddings: Layer-wise Analysis and Baseline Comparison for Semantic Similarity	Feb 20, 2025	GPULanguage Modeling	CodeCode Available	5
Finnish resources for evaluating language model semantics	May 1, 2017	Language ModelingLanguage Modelling	CodeCode Available	5
JCSE: Contrastive Learning of Japanese Sentence Embeddings and Its Applications	Jan 19, 2023	Contrastive LearningDomain Adaptation	CodeCode Available	5
Jmp8 at SemEval-2017 Task 2: A simple and general distributional approach to estimate word similarity	Aug 1, 2017	Dimensionality ReductionSemantic Similarity	CodeCode Available	5
Eval-GCSC: A New Metric for Evaluating ChatGPT's Performance in Chinese Spelling Correction	Nov 14, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	5
ETPC - A Paraphrase Identification Corpus Annotated with Extended Paraphrase Typology and Negation	May 1, 2018	Natural Language InferenceNegation	CodeCode Available	5
Auto-Encoding Dictionary Definitions into Consistent Word Embeddings	Oct 1, 2018	Document ClassificationMachine Translation	CodeCode Available	5
Estimating Semantic Similarity between In-Domain and Out-of-Domain Samples	Jun 1, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	5
Evaluating Open-Domain Dialogues in Latent Space with Next Sentence Prediction and Mutual Information	May 26, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	5
EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning	May 22, 2025	GSM8KMath	CodeCode Available	5
Cross-Lingual Cross-Platform Rumor Verification Pivoting on Multimedia Content	Aug 14, 2018	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	5
TinyBERT: Distilling BERT for Natural Language Understanding	Sep 23, 2019	Knowledge DistillationLanguage Modelling	CodeCode Available	5
Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding	Jul 18, 2022	AttributeReferring Expression	CodeCode Available	5
ERNIE: Enhanced Language Representation with Informative Entities	May 17, 2019	Entity LinkingEntity Typing	CodeCode Available	5
Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization	Sep 15, 2019	intent-classificationIntent Classification	CodeCode Available	5
EMBEDDIA at SemEval-2022 Task 8: Investigating Sentence, Image, and Knowledge Graph Representations for Multilingual News Article Similarity	Jul 1, 2022	ArticlesSemantic Similarity	CodeCode Available	5
Better Summarization Evaluation with Word Embeddings for ROUGE	Aug 25, 2015	Abstractive Text SummarizationSemantic Similarity	CodeCode Available	5
Embeddings Evaluation Using a Novel Measure of Semantic Similarity	Jan 8, 2022	Embeddings EvaluationSemantic Similarity	CodeCode Available	5
SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling	May 13, 2020	Abstractive Text SummarizationDocument Embedding	CodeCode Available	5
EL Embeddings: Geometric construction of models for the Description Logic EL ++	Feb 27, 2019	Graph EmbeddingKnowledge Graph Embedding	CodeCode Available	5
Elevating Legal LLM Responses: Harnessing Trainable Logical Structures and Semantic Knowledge with Legal Reasoning	Feb 11, 2025	HallucinationIn-Context Learning	CodeCode Available	5
Learning semantic sentence representations from visually grounded language without lexical knowledge	Mar 27, 2019	Grounded language learningLearning Semantic Representations	CodeCode Available	5
Annotating and analyzing the interactions between meaning relations	Aug 1, 2019	Natural Language InferenceSemantic Similarity	CodeCode Available	5
Learning Semantic Textual Similarity via Topic-informed Discrete Latent Variables	Nov 7, 2022	Language ModelingLanguage Modelling	CodeCode Available	5
Ad Hoc Table Retrieval using Semantic Similarity	Feb 16, 2018	RetrievalSemantic Similarity	CodeCode Available	5
Creating Large-Scale Multilingual Cognate Tables	May 1, 2018	Machine TranslationSemantic Textual Similarity	CodeCode Available	5
Learning to Remove: Towards Isotropic Pre-trained BERT Embedding	Apr 12, 2021	Semantic Textual SimilarityWord Similarity	CodeCode Available	5
Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization	May 21, 2025	ColorizationImage Colorization	CodeCode Available	5
Efficient Heuristics Generation for Solving Combinatorial Optimization Problems Using Large Language Models	May 19, 2025	Combinatorial OptimizationSemantic Similarity	CodeCode Available	5
Explaining Text Similarity in Transformer Models	May 10, 2024	Information RetrievalRetrieval	CodeCode Available	5
Augmenting Reddit Posts to Determine Wellness Dimensions impacting Mental Health	Jun 6, 2023	Data AugmentationSemantic Similarity	CodeCode Available	5
Counter-fitting Word Vectors to Linguistic Constraints	Mar 2, 2016	Dialogue State TrackingSemantic Similarity	CodeCode Available	5
A character-based steganography using masked language modeling	Jan 15, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Distilling the Knowledge of Romanian BERTs Using Multiple Teachers	Dec 23, 2021	Dialect IdentificationGPU	CodeCode Available	5
Distilling Word Meaning in Context from Pre-trained Language Models	Nov 1, 2021	Language ModelingLanguage Modelling	CodeCode Available	5
Correlations between Word Vector Sets	Oct 7, 2019	Semantic Textual SimilaritySTS	CodeCode Available	5
Correlation Coefficients and Semantic Textual Similarity	May 19, 2019	Semantic Textual SimilaritySentence	CodeCode Available	5
Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks	Oct 16, 2020	Data AugmentationDomain Adaptation	CodeCode Available	5
A Multi-Task Approach for Disentangling Syntax and Semantics in Sentence Representations	Apr 2, 2019	DisentanglementSemantic Similarity	CodeCode Available	5
Correcting Contradictions	Jan 1, 2017	Common Sense ReasoningNatural Language Inference	CodeCode Available	5

Show:10 25 50

← PrevPage 13 of 48Next →

All datasets STS Benchmark MTEB MRPC SICK STS13 STS14 STS12 STS15 STS16 MRPC Dev SentEval SICK-R

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SMARTRoBERTa	Dev Pearson Correlation	92.8	—	Unverified
2	DeBERTa (large)	Accuracy	92.5	—	Unverified
3	SMART-BERT	Dev Pearson Correlation	90	—	Unverified
4	MT-DNN-SMART	Pearson Correlation	0.93	—	Unverified
5	StructBERTRoBERTa ensemble	Pearson Correlation	0.93	—	Unverified
6	Mnet-Sim	Pearson Correlation	0.93	—	Unverified
7	XLNet (single model)	Pearson Correlation	0.93	—	Unverified
8	ALBERT	Pearson Correlation	0.93	—	Unverified
9	T5-11B	Pearson Correlation	0.93	—	Unverified
10	RoBERTa	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-UAE	Spearman Correlation	84.54	—	Unverified
2	ST5-XXL	Spearman Correlation	82.63	—	Unverified
3	ST5-Large	Spearman Correlation	81.83	—	Unverified
4	ST5-XL	Spearman Correlation	81.66	—	Unverified
5	ST5-Base	Spearman Correlation	81.14	—	Unverified
6	MPNet-multilingual	Spearman Correlation	80.73	—	Unverified
7	SGPT-5.8B-nli	Spearman Correlation	80.53	—	Unverified
8	MPNet	Spearman Correlation	80.28	—	Unverified
9	MiniLM-L12	Spearman Correlation	79.8	—	Unverified
10	SimCSE-BERT-sup	Spearman Correlation	79.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MT-DNN-SMART	Accuracy	93.7	—	Unverified
2	ALBERT	Accuracy	93.4	—	Unverified
3	RoBERTa (ensemble)	Accuracy	92.3	—	Unverified
4	BigBird	F1	91.5	—	Unverified
5	StructBERTRoBERTa ensemble	Accuracy	91.5	—	Unverified
6	FLOATER-large	Accuracy	91.4	—	Unverified
7	SMART	Accuracy	91.3	—	Unverified
8	RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	Accuracy	91	—	Unverified
9	RoBERTa-large 355M + Entailment as Few-shot Learner	F1	91	—	Unverified
10	SpanBERT	Accuracy	90.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.82	—	Unverified
2	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.82	—	Unverified
3	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.82	—	Unverified
4	SimCSE-RoBERTalarge	Spearman Correlation	0.82	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.81	—	Unverified
6	SentenceBERT	Spearman Correlation	0.75	—	Unverified
7	SRoBERTa-NLI-base	Spearman Correlation	0.74	—	Unverified
8	SRoBERTa-NLI-large	Spearman Correlation	0.74	—	Unverified
9	Dino (STS/̄🦕)	Spearman Correlation	0.74	—	Unverified
10	SBERT-NLI-large	Spearman Correlation	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-LLaMA-7B	Spearman Correlation	0.91	—	Unverified
2	AnglE-LLaMA-7B-v2	Spearman Correlation	0.91	—	Unverified
3	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.9	—	Unverified
4	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.9	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.9	—	Unverified
6	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.89	—	Unverified
7	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.89	—	Unverified
8	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
9	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
10	SimCSE-RoBERTa-large	Spearman Correlation	0.87	—	Unverified