Paraphrase Identification

The goal of Paraphrase Identification is to determine whether a pair of sentences have the same meaning.

Source: Adversarial Examples with Difficult Common Words for Paraphrase Identification

Image source: On Paraphrase Identification Corpora

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–25 of 172 papers

Title	Date	Tasks	Status	Hype
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	Oct 11, 2018	Citation Intent ClassificationCommon Sense Reasoning	CodeCode Available	3
Scaling Instruction-Finetuned Language Models	Oct 20, 2022	Coreference ResolutionCross-Lingual Question Answering	CodeCode Available	3
PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification	Aug 30, 2019	Paraphrase IdentificationSentence	CodeCode Available	2
What Do Questions Exactly Ask? MFAE: Duplicate Question Identification with Multi-Fusion Asking Emphasis	May 7, 2020	Community Question AnsweringNatural Language Inference	CodeCode Available	1
Self-Explaining Structures Improve NLP Models	Dec 3, 2020	Natural Language InferenceParaphrase Identification	CodeCode Available	1
TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning	Apr 14, 2021	DenoisingDomain Adaptation	CodeCode Available	1
NMTScore: A Multilingual Analysis of Translation-based Text Similarity Measures	Apr 28, 2022	Data-to-Text GenerationMachine Translation	CodeCode Available	1
Factorising Meaning and Form for Intent-Preserving Paraphrasing	May 31, 2021	DecoderForm	CodeCode Available	1
RealFormer: Transformer Likes Residual Attention	Dec 21, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Modelling Latent Translations for Cross-Lingual Transfer	Jul 23, 2021	Cross-Lingual TransferFew-Shot Learning	CodeCode Available	1
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization	Jun 23, 2021	Inductive BiasLinguistic Acceptability	CodeCode Available	1
An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models	Jul 14, 2020	DiversityMulti-Task Learning	CodeCode Available	1
SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization	Nov 8, 2019	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations	Sep 27, 2021	Contrastive LearningLanguage Modelling	CodeCode Available	1
BET: A Backtranslation Approach for Easy Data Augmentation in Transformer-based Paraphrase Identification Context	Sep 25, 2020	Data AugmentationMRPC	CodeCode Available	1
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language	Feb 7, 2022	image-classificationImage Classification	CodeCode Available	1
Do Multilingual Language Models Think Better in English?	Aug 2, 2023	Common Sense ReasoningCross-Lingual Natural Language Inference	CodeCode Available	1
Entailment as Few-Shot Learner	Apr 29, 2021	Contrastive LearningData Augmentation	CodeCode Available	1
Improving Paraphrase Detection with the Adversarial Paraphrasing Task	Jun 14, 2021	Dataset GenerationParaphrase Identification	CodeCode Available	1
Improving word mover's distance by leveraging self-attention matrix	Nov 11, 2022	Paraphrase IdentificationSemantic Similarity	CodeCode Available	1
Adversarial Semantic Collisions	Nov 9, 2020	Extractive SummarizationParaphrase Identification	CodeCode Available	1
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning	Dec 22, 2020	Generalization BoundsLanguage Modeling	CodeCode Available	1
FNet: Mixing Tokens with Fourier Transforms	May 9, 2021	Linguistic AcceptabilityMachine Translation	CodeCode Available	1
PARADE: A New Dataset for Paraphrase Identification Requiring Computer Science Domain Knowledge	Oct 8, 2020	Paraphrase Identification	CodeCode Available	1
XLNet: Generalized Autoregressive Pretraining for Language Understanding	Jun 19, 2019	Audio Question AnsweringChinese Reading Comprehension	CodeCode Available	1

Show:10 25 50

← PrevPage 1 of 7Next →

All datasets Quora Question Pairs MSRP Quora Question Pairs Dev 2017_test set AP IMDb PIT Translated SNLI Dataset in Marathi TURL WikiHop Yelp

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BERT-Base	Direct Intrinsic Dimension	9,295	—	Unverified
2	data2vec	Accuracy	92.4	—	Unverified
3	SMART-BERT	Dev Accuracy	91.5	—	Unverified
4	ALICE	F1	90.7	—	Unverified
5	MFAE	Accuracy	90.54	—	Unverified
6	RoBERTa-large 355M + Entailment as Few-shot Learner	F1	89.2	—	Unverified
7	MwAN	Accuracy	89.12	—	Unverified
8	DIIN	Accuracy	89.06	—	Unverified
9	MSEM	Accuracy	88.86	—	Unverified
10	Bi-CAS-LSTM	Accuracy	88.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FEAT2, TFKLD, SVM, Fine-grained features	Accuracy	80.41	—	Unverified
2	NMF factorization-unigrams-TFKLD	Accuracy	72.75	—	Unverified
3	SWEM-concat	Accuracy	71.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT + SCH attm	Val Accuracy	91.42	—	Unverified
2	BERT + SCH attn	Val F1 Score	88.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN	10 fold Cross validation	50	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBETRa base	MCC	0.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SplitEE-S	Accuracy	82.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSDAE	AP	69.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Weighted Ensemble of TF-IDF and BERT Embeddings	1:1 Accuracy	82.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSDAE	AP	76.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StructBERTRoBERTa ensemble	Accuracy	90.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SplitEE-S	Accuracy	76.7	—	Unverified