Semantic Similarity

The main objective Semantic Similarity is to measure the distance between the semantic meanings of a pair of words, phrases, sentences, or documents. For example, the word “car” is more similar to “bus” than it is to “cat”. The two main approaches to measuring Semantic Similarity are knowledge-based approaches and corpus-based, distributional methods.

Source: Visual and Semantic Knowledge Transfer for Large Scale Semi-supervised Object Detection

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 1564 papers

Title	Date	Tasks	Status	Hype
SemCSE: Semantic Contrastive Sentence Embeddings Using LLM-Generated Summaries For Scientific Abstracts	Jul 17, 2025	Contrastive LearningSemantic Similarity	—Unverified	0
SARA: Selective and Adaptive Retrieval-augmented Generation with Context Compression	Jul 8, 2025	Evidence SelectionRAG	—Unverified	0
FA: Forced Prompt Learning of Vision-Language Models for Out-of-Distribution Detection	Jul 6, 2025	Out-of-Distribution DetectionOut of Distribution (OOD) Detection	CodeCode Available	0
LineRetriever: Planning-Aware Observation Reduction for Web Agents	Jun 30, 2025	RetrievalSemantic Similarity	—Unverified	0
DALR: Dual-level Alignment Learning for Multimodal Sentence Representation Learning	Jun 26, 2025	cross-modal alignmentRepresentation Learning	—Unverified	0
Enhancing Automatic Term Extraction with Large Language Models via Syntactic Retrieval	Jun 26, 2025	Information RetrievalMachine Translation	—Unverified	0
Leveraging Vision-Language Models to Select Trustworthy Super-Resolution Samples Generated by Diffusion Models	Jun 25, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Intrinsic vs. Extrinsic Evaluation of Czech Sentence Embeddings: Semantic Relevance Doesn't Help with MT Evaluation	Jun 25, 2025	Machine TranslationSemantic Similarity	—Unverified	0
PrivacyXray: Detecting Privacy Breaches in LLMs through Semantic Consistency and Probability Certainty	Jun 24, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Semantic similarity estimation for domain specific data using BERT and other techniques	Jun 23, 2025	Information RetrievalMachine Translation	—Unverified	0
ImpliRet: Benchmarking the Implicit Fact Retrieval Challenge	Jun 17, 2025	BenchmarkingRetrieval	CodeCode Available	0
InsertRank: LLMs can reason over BM25 scores to Improve Listwise Reranking	Jun 17, 2025	Information RetrievalReranking	—Unverified	0
Similarity = Value? Consultation Value Assessment and Alignment for Personalized Search	Jun 17, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
GrFormer: A Novel Transformer on Grassmann Manifold for Infrared and Visible Image Fusion	Jun 17, 2025	Infrared And Visible Image FusionSemantic Similarity	—Unverified	0
FindMeIfYouCan: Bringing Open Set metrics to near , far and farther Out-of-Distribution Object Detection	Jun 16, 2025	Autonomous Drivingobject-detection	—Unverified	0
Inv-Entropy: A Fully Probabilistic Framework for Uncertainty Quantification in Language Models	Jun 11, 2025	DiversitySemantic Similarity	CodeCode Available	1
Hierarchical Scoring with 3D Gaussian Splatting for Instance Image-Goal Navigation	Jun 9, 2025	3DGSNavigate	—Unverified	0
Trend-Aware Fashion Recommendation with Visual Segmentation and Semantic Similarity	Jun 9, 2025	Semantic SegmentationSemantic Similarity	CodeCode Available	0
Statistical Hypothesis Testing for Auditing Robustness in Language Models	Jun 9, 2025	FairnessLarge Language Model	—Unverified	0
Conservative Bias in Large Language Models: Measuring Relation Predictions	Jun 9, 2025	HallucinationRelation	—Unverified	0
Denoising Programming Knowledge Tracing with a Code Graph-based Tuning Adaptor	Jun 7, 2025	DenoisingKnowledge Tracing	—Unverified	0
KNN-Defense: Defense against 3D Adversarial Point Clouds using Nearest-Neighbor Search	Jun 7, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	0
Plugging Schema Graph into Multi-Table QA: A Human-Guided Framework for Reducing LLM Reliance	Jun 4, 2025	Question AnsweringSemantic Similarity	—Unverified	0
MCP-Zero: Active Tool Discovery for Autonomous LLM Agents	Jun 1, 2025	RetrievalSemantic Similarity	—Unverified	0
IRT-Router: Effective and Interpretable Multi-LLM Routing via Item Response Theory	Jun 1, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
VUDG: A Dataset for Video Understanding Domain Generalization	May 30, 2025	Domain GeneralizationMultiple-choice	—Unverified	0
Category-aware EEG image generation based on wavelet transform and contrast semantic loss	May 30, 2025	EEGImage Generation	CodeCode Available	0
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training	May 30, 2025	MTEB BenchmarkNatural Language Inference	—Unverified	0
PRISM: A Framework for Producing Interpretable Political Bias Embeddings with Political-Aware Cross-Encoder	May 30, 2025	ArticlesSemantic Similarity	CodeCode Available	0
Label-Guided In-Context Learning for Named Entity Recognition	May 29, 2025	In-Context Learningnamed-entity-recognition	CodeCode Available	1
Document Valuation in LLM Summaries: A Cluster Shapley Approach	May 28, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Improving Brain-to-Image Reconstruction via Fine-Grained Text Bridging	May 28, 2025	Image ReconstructionLanguage Modeling	—Unverified	0
LLMs as Better Recommenders with Natural Language Collaborative Signals: A Self-Assessing Retrieval Approach	May 26, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Position: Mechanistic Interpretability Should Prioritize Feature Consistency in SAEs	May 26, 2025	PositionSemantic Similarity	CodeCode Available	0
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants	May 26, 2025	ClusteringOut-of-Distribution Generalization	CodeCode Available	1
Hypercube-RAG: Hypercube-Based Retrieval-Augmented Generation for In-domain Scientific Question-Answering	May 25, 2025	Question AnsweringRAG	CodeCode Available	0
CrosGrpsABS: Cross-Attention over Syntactic and Semantic Graphs for Aspect-Based Sentiment Analysis in a Low-Resource Language	May 25, 2025	Aspect-Based Sentiment AnalysisAspect-Based Sentiment Analysis (ABSA)	—Unverified	0
Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation	May 24, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Smoothie: Smoothing Diffusion on Token Embeddings for Text Generation	May 24, 2025	Semantic SimilaritySemantic Textual Similarity	CodeCode Available	1
LLMs Are Not Scorers: Rethinking MT Evaluation with Generation-Based Methods	May 22, 2025	DecoderMachine Translation	CodeCode Available	0
EquivPruner: Boosting Efficiency and Quality in LLM-Based Search via Action Pruning	May 22, 2025	GSM8KMath	CodeCode Available	0
Omni TM-AE: A Scalable and Interpretable Embedding Model Using the Full Tsetlin Machine State Space	May 22, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Accidental Misalignment: Fine-Tuning Language Models Induces Unexpected Vulnerability	May 22, 2025	Adversarial DefenseSemantic Similarity	CodeCode Available	0
Automated Feedback Loops to Protect Text Simplification with Generative AI from Information Loss	May 22, 2025	Missing ElementsSemantic Similarity	—Unverified	0
EcomScriptBench: A Multi-task Benchmark for E-commerce Script Planning via Step-wise Intention-Driven Product Association	May 21, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
Language Specific Knowledge: Do Models Know Better in X than in English?	May 21, 2025	Semantic SimilaritySemantic Textual Similarity	—Unverified	0
InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition	May 21, 2025	Earth ObservationObject	CodeCode Available	2
Leveraging the Powerful Attention of a Pre-trained Diffusion Model for Exemplar-based Image Colorization	May 21, 2025	ColorizationImage Colorization	CodeCode Available	0
MultiHal: Multilingual Dataset for Knowledge-Graph Grounded Evaluation of LLM Hallucinations	May 20, 2025	Fact CheckingHallucination	CodeCode Available	0
R2MED: A Benchmark for Reasoning-Driven Medical Retrieval	May 20, 2025	DiagnosticRe-Ranking	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 32Next →

All datasets Annotated corpus for semantic similarity of clinical trial outcomes (expanded corpus)Annotated corpus for semantic similarity of clinical trial outcomes (original corpus)SICK BIOSSES CHIP-STS ClinicalSTS MedSTS

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	93.38	—	Unverified
2	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	91.51	—	Unverified
3	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	90.69	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.16	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, expanded corpus")	F1	89.12	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioBERT (pre-trained on PubMed abstracts + PMC, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.75	—	Unverified
2	SciBERT cased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
3	SciBERT uncased (SciVocab, fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	89.3	—	Unverified
4	BERT-Base uncased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	86.8	—	Unverified
5	BERT-Base cased (fine-tuned on "Annotated corpus for semantic similarity of clinical trial outcomes, original corpus")	F1	84.21	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Doc2VecC	MSE	0.31	—	Unverified
2	LSTM (Tai et al., 2015)	MSE	0.28	—	Unverified
3	Bidirectional LSTM (Tai et al., 2015)	MSE	0.27	—	Unverified
4	combine-skip (Kiros et al., 2015)	MSE	0.27	—	Unverified
5	Dependency Tree-LSTM (Tai et al., 2015)	MSE	0.25	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BioLinkBERT (large)	Pearson Correlation	0.94	—	Unverified
2	BioLinkBERT (base)	Pearson Correlation	0.93	—	Unverified
3	NCBI_BERT(base) (P+M)	Pearson Correlation	0.92	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	MacBERT-large	Macro F1	85.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CharacterBERT (base, medical, ensemble)	Pearson Correlation	85.62	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	NCBI_BERT(base) (P+M)	Pearson Correlation	0.85	—	Unverified