Paraphrase Identification

The goal of Paraphrase Identification is to determine whether a pair of sentences have the same meaning.

Source: Adversarial Examples with Difficult Common Words for Paraphrase Identification

Image source: On Paraphrase Identification Corpora

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1–50 of 172 papers

Title	Date	Tasks	Status	Hype
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding	Oct 11, 2018	Citation Intent ClassificationCommon Sense Reasoning	CodeCode Available	3
Scaling Instruction-Finetuned Language Models	Oct 20, 2022	Coreference ResolutionCross-Lingual Question Answering	CodeCode Available	3
PAWS-X: A Cross-lingual Adversarial Dataset for Paraphrase Identification	Aug 30, 2019	Paraphrase IdentificationSentence	CodeCode Available	2
BET: A Backtranslation Approach for Easy Data Augmentation in Transformer-based Paraphrase Identification Context	Sep 25, 2020	Data AugmentationMRPC	CodeCode Available	1
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization	Jun 23, 2021	Inductive BiasLinguistic Acceptability	CodeCode Available	1
Do Multilingual Language Models Think Better in English?	Aug 2, 2023	Common Sense ReasoningCross-Lingual Natural Language Inference	CodeCode Available	1
Factorising Meaning and Form for Intent-Preserving Paraphrasing	May 31, 2021	DecoderForm	CodeCode Available	1
Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations	Sep 27, 2021	Contrastive LearningLanguage Modelling	CodeCode Available	1
Adversarial Semantic Collisions	Nov 9, 2020	Extractive SummarizationParaphrase Identification	CodeCode Available	1
What Do Questions Exactly Ask? MFAE: Duplicate Question Identification with Multi-Fusion Asking Emphasis	May 7, 2020	Community Question AnsweringNatural Language Inference	CodeCode Available	1
PARADE: A New Dataset for Paraphrase Identification Requiring Computer Science Domain Knowledge	Oct 8, 2020	Paraphrase Identification	CodeCode Available	1
An Empirical Study on Robustness to Spurious Correlations using Pre-trained Language Models	Jul 14, 2020	DiversityMulti-Task Learning	CodeCode Available	1
Improving word mover's distance by leveraging self-attention matrix	Nov 11, 2022	Paraphrase IdentificationSemantic Similarity	CodeCode Available	1
RealFormer: Transformer Likes Residual Attention	Dec 21, 2020	Language ModelingLanguage Modelling	CodeCode Available	1
Modelling Latent Translations for Cross-Lingual Transfer	Jul 23, 2021	Cross-Lingual TransferFew-Shot Learning	CodeCode Available	1
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning	Dec 22, 2020	Generalization BoundsLanguage Modeling	CodeCode Available	1
Entailment as Few-Shot Learner	Apr 29, 2021	Contrastive LearningData Augmentation	CodeCode Available	1
SMART: Robust and Efficient Fine-Tuning for Pre-trained Natural Language Models through Principled Regularized Optimization	Nov 8, 2019	Linguistic AcceptabilityNatural Language Inference	CodeCode Available	1
XLNet: Generalized Autoregressive Pretraining for Language Understanding	Jun 19, 2019	Audio Question AnsweringChinese Reading Comprehension	CodeCode Available	1
data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language	Feb 7, 2022	image-classificationImage Classification	CodeCode Available	1
FNet: Mixing Tokens with Fourier Transforms	May 9, 2021	Linguistic AcceptabilityMachine Translation	CodeCode Available	1
Improving Paraphrase Detection with the Adversarial Paraphrasing Task	Jun 14, 2021	Dataset GenerationParaphrase Identification	CodeCode Available	1
NMTScore: A Multilingual Analysis of Translation-based Text Similarity Measures	Apr 28, 2022	Data-to-Text GenerationMachine Translation	CodeCode Available	1
TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning	Apr 14, 2021	DenoisingDomain Adaptation	CodeCode Available	1
Self-Explaining Structures Improve NLP Models	Dec 3, 2020	Natural Language InferenceParaphrase Identification	CodeCode Available	1
An Optimal Quadratic Approach to Monolingual Paraphrase Alignment	May 1, 2015	Combinatorial OptimizationMachine Translation	—Unverified	0
An Exploration of Embeddings for Generalized Phrases	Jun 1, 2014	Coreference ResolutionParaphrase Identification	—Unverified	0
Better Early than Late: Fusing Topics with Word Embeddings for Neural Question Paraphrase Identification	Jul 22, 2020	Community Question AnsweringParaphrase Identification	—Unverified	0
BnPC: A Corpus for Paraphrase Detection in Bangla	Dec 17, 2021	Paraphrase IdentificationSentence	—Unverified	0
Bridging the Gap between Relevance Matching and Semantic Matching for Short Text Similarity Modeling	Nov 1, 2019	Information RetrievalParaphrase Identification	—Unverified	0
How much pretraining data do language models need to learn syntax?	Sep 7, 2021	Dependency ParsingParaphrase Identification	—Unverified	0
Improving Large-scale Paraphrase Acquisition and Generation	Oct 6, 2022	Language ModelingLanguage Modelling	—Unverified	0
AMRITA\_CEN@SemEval-2015: Paraphrase Detection for Twitter using Unsupervised Feature Learning with Recursive Autoencoders	Jun 1, 2015	Information RetrievalMachine Translation	—Unverified	0
Discriminative Improvements to Distributional Sentence Similarity	Oct 1, 2013	Machine TranslationParaphrase Identification	—Unverified	0
Balanced Adversarial Training: Balancing Tradeoffs Between Oversensitivity and Undersensitivity in NLP Models	Jan 16, 2022	Contrastive LearningNatural Language Inference	—Unverified	0
A Cross-Sentence Latent Variable Model for Semi-Supervised Text Sequence Matching	Jun 4, 2019	DecoderNatural Language Inference	—Unverified	0
HLTC-HKUST: A Neural Network Paraphrase Classifier using Translation Metrics, Semantic Roles and Lexical Similarity Features	Jun 1, 2015	Paraphrase IdentificationSemantic Textual Similarity	—Unverified	0
AWE: Asymmetric Word Embedding for Textual Entailment	Sep 11, 2018	Natural Language InferenceParaphrase Identification	—Unverified	0
Cross-Lingual Adaptation Using Universal Dependencies	Mar 24, 2020	Paraphrase IdentificationRelation Extraction	—Unverified	0
A Unified Kernel Approach for Learning Typed Sentence Rewritings	Jul 1, 2015	Machine TranslationNatural Language Inference	—Unverified	0
Explaining Predictive Uncertainty by Looking Back at Model Explanations	Jan 11, 2022	Decision MakingNatural Language Inference	—Unverified	0
Co-Stack Residual Affinity Networks with Multi-level Attention Refinement for Matching Text Sequences	Oct 6, 2018	Paraphrase IdentificationQuestion Answering	—Unverified	0
Exploiting Sentence Similarities for Better Alignments	Nov 1, 2016	Natural Language InferenceParaphrase Identification	—Unverified	0
Cross-lingual paraphrase identification	Jun 21, 2024	Cross-Lingual Paraphrase IdentificationParaphrase Identification	—Unverified	0
A Continuously Growing Dataset of Sentential Paraphrases	Aug 1, 2017	BenchmarkingParaphrase Identification	—Unverified	0
Deep Learning of Binary and Gradient Judgements for Semantic Paraphrase	Jan 1, 2017	Deep LearningParaphrase Identification	—Unverified	0
Contextualized Embeddings based Convolutional Neural Networks for Duplicate Question Identification	Sep 3, 2021	Paraphrase IdentificationQuestion Answering	—Unverified	0
Experiments on Paraphrase Identification Using Quora Question Pairs Dataset	Jun 4, 2020	Binary ClassificationParaphrase Identification	—Unverified	0
Discriminative Phrase Embedding for Paraphrase Identification	Apr 2, 2016	Paraphrase Identification	—Unverified	0
FBK-HLT: An Effective System for Paraphrase Identification and Semantic Similarity in Twitter	Jun 1, 2015	Information RetrievalMachine Translation	—Unverified	0

Show:10 25 50

← PrevPage 1 of 4Next →

All datasets Quora Question Pairs MSRP Quora Question Pairs Dev 2017_test set AP IMDb PIT Translated SNLI Dataset in Marathi TURL WikiHop Yelp

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	BERT-Base	Direct Intrinsic Dimension	9,295	—	Unverified
2	data2vec	Accuracy	92.4	—	Unverified
3	SMART-BERT	Dev Accuracy	91.5	—	Unverified
4	ALICE	F1	90.7	—	Unverified
5	MFAE	Accuracy	90.54	—	Unverified
6	RoBERTa-large 355M + Entailment as Few-shot Learner	F1	89.2	—	Unverified
7	MwAN	Accuracy	89.12	—	Unverified
8	DIIN	Accuracy	89.06	—	Unverified
9	MSEM	Accuracy	88.86	—	Unverified
10	Bi-CAS-LSTM	Accuracy	88.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	FEAT2, TFKLD, SVM, Fine-grained features	Accuracy	80.41	—	Unverified
2	NMF factorization-unigrams-TFKLD	Accuracy	72.75	—	Unverified
3	SWEM-concat	Accuracy	71.5	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	BERT + SCH attm	Val Accuracy	91.42	—	Unverified
2	BERT + SCH attn	Val F1 Score	88.44	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	CNN	10 fold Cross validation	50	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	RoBETRa base	MCC	0.53	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SplitEE-S	Accuracy	82.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSDAE	AP	69.2	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Weighted Ensemble of TF-IDF and BERT Embeddings	1:1 Accuracy	82.04	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	TSDAE	AP	76.8	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	StructBERTRoBERTa ensemble	Accuracy	90.7	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	SplitEE-S	Accuracy	76.7	—	Unverified