Semantic Textual Similarity

Semantic textual similarity deals with determining how similar two pieces of texts are. This can take the form of assigning a score from 1 to 5. Related tasks are paraphrase or duplicate identification.

Image source: Learning Semantic Textual Similarity from Conversations

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 151–200 of 2381 papers

Title	Date	Tasks	Status	Hype
Debiased Contrastive Learning of Unsupervised Sentence Representations	May 2, 2022	Contrastive LearningSemantic Textual Similarity	CodeCode Available	1
Binary Code Summarization: Benchmarking ChatGPT/GPT-4 and Other Large Language Models	Dec 15, 2023	BenchmarkingCode Summarization	CodeCode Available	1
Catch-A-Waveform: Learning to Generate Audio from a Single Short Example	Jun 11, 2021	Audio GenerationSemantic Similarity	CodeCode Available	1
Deep Fusion Transformer Network with Weighted Vector-Wise Keypoints Voting for Robust 6D Object Pose Estimation	Aug 10, 2023	6D Pose Estimation using RGBglobal-optimization	CodeCode Available	1
CmdCaliper: A Semantic-Aware Command-Line Embedding Model and Dataset for Security Research	Nov 2, 2024	Line DetectionSemantic Similarity	CodeCode Available	1
Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis	Sep 20, 2024	Anomaly DetectionFault Diagnosis	CodeCode Available	1
A Semantic-based Method for Unsupervised Commonsense Question Answering	May 31, 2021	Question AnsweringSemantic Similarity	CodeCode Available	1
Describing Sets of Images with Textual-PCA	Oct 21, 2022	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
Automatic Generation of Topic Labels	May 29, 2020	DescriptiveInformation Retrieval	CodeCode Available	1
Disentangling Semantics and Syntax in Sentence Embeddings with Pre-trained Language Models	Apr 11, 2021	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding	Jul 18, 2023	3D visual groundingObject	CodeCode Available	1
Distinguish Confusion in Legal Judgment Prediction via Revised Relation Knowledge	Aug 18, 2024	ArticlesInductive Bias	CodeCode Available	1
3D-AVS: LiDAR-based 3D Auto-Vocabulary Segmentation	Jun 13, 2024	Autonomous DrivingObject	CodeCode Available	1
A Simple Long-Tailed Recognition Baseline via Vision-Language Model	Nov 29, 2021	Contrastive LearningLanguage Modeling	CodeCode Available	1
DriveDiTFit: Fine-tuning Diffusion Transformers for Autonomous Driving	Jul 22, 2024	Autonomous DrivingDiversity	CodeCode Available	1
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning	Sep 20, 2023	Contrastive LearningRetrieval	CodeCode Available	1
AutoKG: Efficient Automated Knowledge Graph Generation for Language Models	Nov 22, 2023	Graph GenerationRetrieval	CodeCode Available	1
RACE: Retrieval-Augmented Commit Message Generation	Mar 5, 2022	Information RetrievalRetrieval	CodeCode Available	1
ELITE: Embedding-Less retrieval with Iterative Text Exploration	May 17, 2025	graph constructionRAG	CodeCode Available	1
An Unsupervised Sentence Embedding Method by Mutual Information Maximization	Sep 25, 2020	ClusteringSelf-Supervised Learning	CodeCode Available	1
AutoGCL: Automated Graph Contrastive Learning via Learnable View Generators	Sep 21, 2021	Contrastive LearningGraph Representation Learning	CodeCode Available	1
Automated radiology report generation using conditioned transformers	Mar 26, 2021	Medical Report GenerationSemantic Similarity	CodeCode Available	1
Balancing Lexical and Semantic Quality in Abstractive Summarization	May 17, 2023	Abstractive Text SummarizationRe-Ranking	CodeCode Available	1
Evaluating Multimodal Representations on Visual Semantic Textual Similarity	Apr 4, 2020	BenchmarkingImage Captioning	CodeCode Available	1
Fast and Accurate Deep Bidirectional Language Representations for Unsupervised Learning	Apr 17, 2020	CPULanguage Modeling	CodeCode Available	1
Fast, Effective, and Self-Supervised: Transforming Masked Language Models into Universal Lexical and Sentence Encoders	Apr 16, 2021	Contrastive LearningCross-Lingual Semantic Textual Similarity	CodeCode Available	1
FedSSA: Semantic Similarity-based Aggregation for Efficient Model-Heterogeneous Personalized Federated Learning	Dec 14, 2023	Computational EfficiencyFederated Learning	CodeCode Available	1
Few-Shot Class-Incremental Learning via Training-Free Prototype Calibration	Dec 8, 2023	class-incremental learningClass Incremental Learning	CodeCode Available	1
Attributable Visual Similarity Learning	Mar 28, 2022	Metric LearningSemantic Similarity	CodeCode Available	1
FNet: Mixing Tokens with Fourier Transforms	May 9, 2021	Linguistic AcceptabilityMachine Translation	CodeCode Available	1
Frequency-driven Imperceptible Adversarial Attack on Semantic Similarity	Mar 10, 2022	Adversarial AttackSemantic Similarity	CodeCode Available	1
Full Automation of Goal-driven LLM Dialog Threads with And-Or Recursors and Refiner Oracles	Jun 24, 2023	Recommendation SystemsSemantic Similarity	CodeCode Available	1
Global Explainability of BERT-Based Evaluation Metrics by Disentangling along Linguistic Factors	Oct 8, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
Graph-based Semantical Extractive Text Analysis	Dec 19, 2022	Keyword ExtractionSemantic Similarity	CodeCode Available	1
High Temporal Consistency through Semantic Similarity Propagation in Semi-Supervised Video Semantic Segmentation for Autonomous Flight	Mar 19, 2025	Image SegmentationKnowledge Distillation	CodeCode Available	1
HiHPQ: Hierarchical Hyperbolic Product Quantization for Unsupervised Image Retrieval	Jan 14, 2024	Contrastive LearningImage Retrieval	CodeCode Available	1
How to Train BERT with an Academic Budget	Apr 15, 2021	Language ModelingLanguage Modelling	CodeCode Available	1
PatentSBERTa: A Deep NLP based Hybrid Model for Patent Distance and Classification using Augmented SBERT	Mar 22, 2021	ClassificationGeneral Classification	CodeCode Available	1
Improving Language Understanding by Generative Pre-Training	Jun 11, 2018	Cloze TestDocument Classification	CodeCode Available	1
Improving word mover's distance by leveraging self-attention matrix	Nov 11, 2022	Paraphrase IdentificationSemantic Similarity	CodeCode Available	1
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models	Jun 11, 2025	DiversitySemantic Similarity	CodeCode Available	1
IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory	Jun 1, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding	Apr 9, 2023	Document Classificationnamed-entity-recognition	CodeCode Available	1
KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning	Mar 26, 2024	Contrastive LearningKnowledge Distillation	CodeCode Available	1
KorNLI and KorSTS: New Benchmark Datasets for Korean Natural Language Understanding	Apr 7, 2020	Natural Language InferenceNatural Language Understanding	CodeCode Available	1
Label-Guided In-Context Learning for Named Entity Recognition	May 29, 2025	In-Context Learningnamed-entity-recognition	CodeCode Available	1
AstroCLIP: A Cross-Modal Foundation Model for Galaxies	Oct 4, 2023	Contrastive Learningmodel	CodeCode Available	1
Language-agnostic BERT Sentence Embedding	Jul 3, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Attentive Normalization for Conditional Image Generation	Apr 8, 2020	Conditional Image GenerationImage Generation	CodeCode Available	1
Audio-Visual Class-Incremental Learning	Aug 21, 2023	class-incremental learningClass Incremental Learning	CodeCode Available	1

Show:10 25 50

← PrevPage 4 of 48Next →

All datasets STS Benchmark MTEB MRPC SICK STS13 STS14 STS12 STS15 STS16 MRPC Dev SentEval SICK-R

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	SMARTRoBERTa	Dev Pearson Correlation	92.8	—	Unverified
2	DeBERTa (large)	Accuracy	92.5	—	Unverified
3	SMART-BERT	Dev Pearson Correlation	90	—	Unverified
4	MT-DNN-SMART	Pearson Correlation	0.93	—	Unverified
5	StructBERTRoBERTa ensemble	Pearson Correlation	0.93	—	Unverified
6	Mnet-Sim	Pearson Correlation	0.93	—	Unverified
7	XLNet (single model)	Pearson Correlation	0.93	—	Unverified
8	ALBERT	Pearson Correlation	0.93	—	Unverified
9	T5-11B	Pearson Correlation	0.93	—	Unverified
10	RoBERTa	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-UAE	Spearman Correlation	84.54	—	Unverified
2	ST5-XXL	Spearman Correlation	82.63	—	Unverified
3	ST5-Large	Spearman Correlation	81.83	—	Unverified
4	ST5-XL	Spearman Correlation	81.66	—	Unverified
5	ST5-Base	Spearman Correlation	81.14	—	Unverified
6	MPNet-multilingual	Spearman Correlation	80.73	—	Unverified
7	SGPT-5.8B-nli	Spearman Correlation	80.53	—	Unverified
8	MPNet	Spearman Correlation	80.28	—	Unverified
9	MiniLM-L12	Spearman Correlation	79.8	—	Unverified
10	SimCSE-BERT-sup	Spearman Correlation	79.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MT-DNN-SMART	Accuracy	93.7	—	Unverified
2	ALBERT	Accuracy	93.4	—	Unverified
3	RoBERTa (ensemble)	Accuracy	92.3	—	Unverified
4	BigBird	F1	91.5	—	Unverified
5	StructBERTRoBERTa ensemble	Accuracy	91.5	—	Unverified
6	FLOATER-large	Accuracy	91.4	—	Unverified
7	SMART	Accuracy	91.3	—	Unverified
8	RoBERTa-large 355M (MLP quantized vector-wise, fine-tuned)	Accuracy	91	—	Unverified
9	RoBERTa-large 355M + Entailment as Few-shot Learner	F1	91	—	Unverified
10	SpanBERT	Accuracy	90.9	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.82	—	Unverified
2	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.82	—	Unverified
3	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.82	—	Unverified
4	SimCSE-RoBERTalarge	Spearman Correlation	0.82	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.81	—	Unverified
6	SentenceBERT	Spearman Correlation	0.75	—	Unverified
7	SRoBERTa-NLI-base	Spearman Correlation	0.74	—	Unverified
8	SRoBERTa-NLI-large	Spearman Correlation	0.74	—	Unverified
9	Dino (STS/̄🦕)	Spearman Correlation	0.74	—	Unverified
10	SBERT-NLI-large	Spearman Correlation	0.74	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	AnglE-LLaMA-7B	Spearman Correlation	0.91	—	Unverified
2	AnglE-LLaMA-7B-v2	Spearman Correlation	0.91	—	Unverified
3	PromptEOL+CSE+LLaMA-30B	Spearman Correlation	0.9	—	Unverified
4	PromptEOL+CSE+OPT-13B	Spearman Correlation	0.9	—	Unverified
5	PromptEOL+CSE+OPT-2.7B	Spearman Correlation	0.9	—	Unverified
6	PromCSE-RoBERTa-large (0.355B)	Spearman Correlation	0.89	—	Unverified
7	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.89	—	Unverified
8	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
9	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.88	—	Unverified
10	SimCSE-RoBERTa-large	Spearman Correlation	0.87	—	Unverified