Semantic Textual Similarity

Semantic textual similarity deals with determining how similar two pieces of texts are. This can take the form of assigning a score from 1 to 5. Related tasks are paraphrase or duplicate identification.

Image source: Learning Semantic Textual Similarity from Conversations

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–700 of 2381 papers

Title	Date	Tasks	Status	Score
Beyond Word2Vec: Embedding Words and Phrases in Same Vector Space	Dec 18, 2017	Phrase Vector EmbeddingSemantic Textual Similarity	CodeCode Available	5
EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning	May 22, 2025	GSM8KMath	CodeCode Available	5
Estimating Semantic Similarity between In-Domain and Out-of-Domain Samples	Jun 1, 2023	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	5
MixMOOD: A systematic approach to class distribution mismatch in semi-supervised learning using deep dataset dissimilarity measures	Jun 14, 2020	Multi-class ClassificationSemantic Similarity	CodeCode Available	5
Exploiting Semantic Role Contextualized Video Features for Multi-Instance Text-Video Retrieval EPIC-KITCHENS-100 Multi-Instance Retrieval Challenge 2022	Jun 29, 2022	Multi-Instance RetrievalRetrieval	CodeCode Available	5
Modelling Sentence Pairs with Tree-structured Attentive Encoder	Oct 10, 2016	Paraphrase IdentificationQuestion Selection	CodeCode Available	5
A Comparative Study of Text Embedding Models for Semantic Text Similarity in Bug Reports	Aug 17, 2023	Semantic Textual Similaritytext similarity	CodeCode Available	5
MoralStrength: Exploiting a Moral Lexicon and Embedding Similarity for Moral Foundations Prediction	Apr 17, 2019	Decision MakingLEMMA	CodeCode Available	5
Augmenting Reddit Posts to Determine Wellness Dimensions impacting Mental Health	Jun 6, 2023	Data AugmentationSemantic Similarity	CodeCode Available	5
Counter-fitting Word Vectors to Linguistic Constraints	Mar 2, 2016	Dialogue State TrackingSemantic Similarity	CodeCode Available	5
SueNes: A Weakly Supervised Approach to Evaluating Single-Document Summarization via Negative Sampling	May 13, 2020	Abstractive Text SummarizationDocument Embedding	CodeCode Available	5
Multilingual LLMs Inherently Reward In-Language Time-Sensitive Semantic Alignment for Low-Resource Languages	Dec 11, 2024	In-Context LearningSemantic Similarity	CodeCode Available	5
Emu: Enhancing Multilingual Sentence Embeddings with Semantic Specialization	Sep 15, 2019	intent-classificationIntent Classification	CodeCode Available	5
Multi-stage Distillation Framework for Cross-Lingual Semantic Similarity Matching	Sep 13, 2022	Contrastive LearningKnowledge Distillation	CodeCode Available	5
A Generalized Method for Automated Multilingual Loanword Detection	Oct 1, 2022	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	5
Near-lossless Binarization of Word Embeddings	Mar 24, 2018	BinarizationSemantic Similarity	CodeCode Available	5
A character-based steganography using masked language modeling	Jan 15, 2024	Language ModelingLanguage Modelling	CodeCode Available	5
Correlations between Word Vector Sets	Oct 7, 2019	Semantic Textual SimilaritySTS	CodeCode Available	5
Correlation Coefficients and Semantic Textual Similarity	May 19, 2019	Semantic Textual SimilaritySentence	CodeCode Available	5
Neural Network Models for Paraphrase Identification, Semantic Textual Similarity, Natural Language Inference, and Question Answering	Jun 12, 2018	Natural Language InferenceParaphrase Identification	CodeCode Available	5
Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks	Oct 16, 2020	Data AugmentationDomain Adaptation	CodeCode Available	5
A Multi-Task Approach for Disentangling Syntax and Semantics in Sentence Representations	Apr 2, 2019	DisentanglementSemantic Similarity	CodeCode Available	5
Correcting Contradictions	Jan 1, 2017	Common Sense ReasoningNatural Language Inference	CodeCode Available	5
Embeddings Evaluation Using a Novel Measure of Semantic Similarity	Jan 8, 2022	Embeddings EvaluationSemantic Similarity	CodeCode Available	5
Novel Categories Discovery Via Constraints on Empirical Prediction Statistics	Jul 7, 2023	ClusteringPseudo Label	CodeCode Available	5
EL Embeddings: Geometric construction of models for the Description Logic EL ++	Feb 27, 2019	Graph EmbeddingKnowledge Graph Embedding	CodeCode Available	5
Elevating Legal LLM Responses: Harnessing Trainable Logical Structures and Semantic Knowledge with Legal Reasoning	Feb 11, 2025	HallucinationIn-Context Learning	CodeCode Available	5
COPER: a Query-adaptable Semantics-based Search Engine for Persian COVID-19 Articles	Jul 12, 2021	ArticlesSemantic Textual Similarity	CodeCode Available	5
Efficient Heuristics Generation for Solving Combinatorial Optimization Problems Using Large Language Models	May 19, 2025	Combinatorial OptimizationSemantic Similarity	CodeCode Available	5
Don't Settle for Average, Go for the Max: Fuzzy Sets and Max-Pooled Word Vectors	Apr 30, 2019	Semantic Textual SimilaritySentence	CodeCode Available	5
EMBEDDIA at SemEval-2022 Task 8: Investigating Sentence, Image, and Knowledge Graph Representations for Multilingual News Article Similarity	Jul 1, 2022	ArticlesSemantic Similarity	CodeCode Available	5
Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding	Jul 18, 2022	AttributeReferring Expression	CodeCode Available	5
FAT ALBERT: Finding Answers in Large Texts using Semantic Similarity Attention Layer based on BERT	Aug 22, 2020	Multiple-choiceQuestion Answering	CodeCode Available	5
Hybrid Semantic Recommender System for Chemical Compounds	Jan 21, 2020	Collaborative FilteringRecommendation Systems	CodeCode Available	5
Convolutional neural networks for structured omics: OmicsCNN and the OmicsConv layer	Oct 16, 2017	Deep LearningSemantic Similarity	—Unverified	0
Convolutional Neural Network for Universal Sentence Embeddings	Aug 1, 2018	Semantic Textual SimilaritySentence	—Unverified	0
ConvFiT: Conversational Fine-Tuning of Pretrained Language Models	Sep 21, 2021	Intent DetectionRetrieval	—Unverified	0
Attention Discriminant Sampling for Point Clouds	Jan 1, 2023	object-detectionObject Detection	—Unverified	0
A Multilingual Dataset for Evaluating Parallel Sentence Extraction from Comparable Corpora	May 1, 2018	Machine TranslationSemantic Textual Similarity	—Unverified	0
Contrastive Word Embedding Learning for Neural Machine Translation	Sep 17, 2021	Machine TranslationNMT	—Unverified	0
Attention-based Cross-Layer Domain Alignment for Unsupervised Domain Adaptation	Feb 27, 2022	Domain AdaptationSemantic Similarity	—Unverified	0
Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations	Mar 14, 2022	Image CaptioningSemantic Textual Similarity	—Unverified	0
Contrastive Semantic Similarity Learning for Image Captioning Evaluation with Intrinsic Auto-encoder	Jun 29, 2021	Image CaptioningRepresentation Learning	—Unverified	0
Attention-aware semantic relevance predicting Chinese sentence reading	Mar 27, 2024	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
A Multi-level Alignment Training Scheme for Video-and-Language Grounding	Apr 22, 2022	RetrievalSemantic Similarity	—Unverified	0
A Deep Decomposable Model for Disentangling Syntax and Semantics in Sentence Representation	Nov 1, 2021	DisentanglementGenerative Adversarial Network	—Unverified	0
Contrastive Learning Subspace for Text Clustering	Aug 26, 2024	ClusteringContrastive Learning	—Unverified	0
Contrastive Learning of Sentence Representations	Dec 1, 2021	Contrastive LearningSemantic Similarity	—Unverified	0
A Thesaurus for Biblical Hebrew	May 1, 2020	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
AMRITA\_CEN@SemEval-2015: Paraphrase Detection for Twitter using Unsupervised Feature Learning with Recursive Autoencoders	Jun 1, 2015	Information RetrievalMachine Translation	—Unverified	0

Show:10 25 50

← PrevPage 14 of 48Next →

All datasets STS Benchmark MTEB MRPC SICK STS13 STS14 STS12 STS15 STS16 MRPC Dev SentEval SICK-R

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SMARTRoBERTa	Dev Pearson Correlation	92.8	—	Unverified
2	DeBERTa (large)	Accuracy	92.5	—	Unverified
3	SMART-BERT	Dev Pearson Correlation	90	—	Unverified
4	MT-DNN-SMART	Pearson Correlation	0.93	—	Unverified
5	StructBERTRoBERTa ensemble	Pearson Correlation	0.93	—	Unverified
6	Mnet-Sim	Pearson Correlation	0.93	—	Unverified
7	XLNet (single model)	Pearson Correlation	0.93	—	Unverified
8	T5-11B	Pearson Correlation	0.93	—	Unverified
9	ALBERT	Pearson Correlation	0.93	—	Unverified
10	RoBERTa	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-UAE	Spearman Correlation	84.54	—	Unverified
2	ST5-XXL	Spearman Correlation	82.63	—	Unverified
3	ST5-Large	Spearman Correlation	81.83	—	Unverified
4	ST5-XL	Spearman Correlation	81.66	—	Unverified
5	ST5-Base	Spearman Correlation	81.14	—	Unverified
6	MPNet-multilingual	Spearman Correlation	80.73	—	Unverified
7	SGPT-5.8B-nli	Spearman Correlation	80.53	—	Unverified
8	MPNet	Spearman Correlation	80.28	—	Unverified
9	MiniLM-L12	Spearman Correlation	79.8	—	Unverified
10	SimCSE-BERT-sup	Spearman Correlation	79.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MT-DNN-SMART	Accuracy	93.7	—	Unverified
2	ALBERT	Accuracy	93.4	—	Unverified
3	RoBERTa (ensemble)	Accuracy	92.3	—	Unverified
4	BigBird	F1	91.5	—	Unverified
5	StructBERTRoBERTa ensemble	Accuracy	91.5	—	Unverified
6	FLOATER-large	Accuracy	91.4	—	Unverified
7	SMART	Accuracy	91.3	—	Unverified
8	RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	Accuracy	91	—	Unverified
9	RoBERTa-large 355M + Entailment as Few-shot Learner	F1	91	—	Unverified
10	SpanBERT	Accuracy	90.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.82	—	Unverified
2	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.82	—	Unverified
3	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.82	—	Unverified
4	SimCSE-RoBERTalarge	Spearman Correlation	0.82	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.81	—	Unverified
6	SentenceBERT	Spearman Correlation	0.75	—	Unverified
7	SRoBERTa-NLI-base	Spearman Correlation	0.74	—	Unverified
8	SRoBERTa-NLI-large	Spearman Correlation	0.74	—	Unverified
9	Dino (STS/̄🦕)	Spearman Correlation	0.74	—	Unverified
10	SBERT-NLI-large	Spearman Correlation	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-LLaMA-7B	Spearman Correlation	0.91	—	Unverified
2	AnglE-LLaMA-7B-v2	Spearman Correlation	0.91	—	Unverified
3	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.9	—	Unverified
4	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.9	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.9	—	Unverified
6	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.89	—	Unverified
7	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.89	—	Unverified
8	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
9	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
10	SimCSE-RoBERTa-large	Spearman Correlation	0.87	—	Unverified