Natural Language Inference

Natural language inference (NLI) is the task of determining whether a "hypothesis" is true (entailment), false (contradiction), or undetermined (neutral) given a "premise".

Example:

| Premise | Label | Hypothesis | | --- | ---| --- | | A man inspects the uniform of a figure in some East Asian country. | contradiction | The man is sleeping. | | An older and younger man smiling. | neutral | Two men are smiling and laughing at the cats playing on the floor. | | A soccer game with multiple males playing. | entailment | Some men are playing a sport. |

Approaches used for NLI include earlier symbolic and statistical approaches to more recent deep learning approaches. Benchmark datasets used for NLI include SNLI, MultiNLI, SciTail, among others. You can get hands-on practice on the SNLI task by following this d2l.ai chapter.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–1000 of 1961 papers

Title	Date	Tasks	Status
Increasing Robustness to Spurious Correlations using Forgettable Examples	Nov 10, 2019	Natural Language InferenceNatural Language Understanding	—Unverified
Robust Natural Language Representation Learning for Natural Language Inference by Projecting Superficial Words out	Sep 25, 2019	Natural Language InferenceRepresentation Learning	—Unverified
Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow Interpolation	Oct 7, 2022	Cross-Lingual Natural Language InferenceNatural Language Inference	—Unverified
RuArg-2022: Argument Mining Evaluation	Jun 18, 2022	Argument MiningNatural Language Inference	—Unverified
Rule Extraction for Tree-to-Tree Transducers by Cost Minimization	Nov 1, 2016	Machine TranslationNatural Language Inference	—Unverified
S2LPP: Small-to-Large Prompt Prediction across LLMs	May 26, 2025	Natural Language InferencePrediction	—Unverified
Saama Research at MEDIQA 2019: Pre-trained BioBERT with Attention Visualisation for Medical Natural Language Inference	Aug 1, 2019	Natural Language Inference	—Unverified
SAGAN: A Machine Translation Approach for Cross-Lingual Textual Entailment	Jul 1, 2012	Document SummarizationInformation Retrieval	—Unverified
SAGAN: An approach to Semantic Textual Similarity based on Textual Entailment	Jul 1, 2012	Machine TranslationNatural Language Inference	—Unverified
SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data	Apr 16, 2025	Contrastive Learningcounterfactual	—Unverified
SAPPHIRE: Simple Aligner for Phrasal Paraphrase with Hierarchical Representation	May 1, 2020	Natural Language InferenceNatural Language Understanding	—Unverified
Scalar Adjective Identification and Multilingual Ranking	May 3, 2021	Binary ClassificationCommon Sense Reasoning	—Unverified
SDOH-NLI: a Dataset for Inferring Social Determinants of Health from Clinical Notes	Oct 27, 2023	Natural Language Inference	—Unverified
Selective Annotation of Modal Readings: Delving into the Difficult Data	Sep 1, 2016	Natural Language InferenceSentence	—Unverified
*SEM 2013 shared task: Semantic Textual Similarity	Jun 1, 2013	Machine TranslationNatural Language Inference	—Unverified
Semantic Annotation of Textual Entailment	Mar 1, 2013	Natural Language Inference	—Unverified
Semantic Diversity in Dialogue with Natural Language Inference	May 3, 2022	Dialogue GenerationDiversity	—Unverified
Semantic Parsing for Textual Entailment	Jul 1, 2015	Dependency ParsingNatural Language Inference	—Unverified
Semantic Parsing using Distributional Semantics and Probabilistic Logic	Jun 1, 2014	Natural Language InferenceQuestion Answering	—Unverified
Semantic Roles in Grammar Engineering	Aug 1, 2014	Natural Language InferenceQuestion Answering	—Unverified
Semantics-Aware Inferential Network for Natural Language Understanding	Apr 28, 2020	Machine Reading ComprehensionNatural Language Inference	—Unverified
Semantic Sentence Matching with Densely-connected Recurrent and Co-attentive Information	May 29, 2018	Natural Language InferenceParaphrase Identification	—Unverified
Semantic Textual Similarity for MT evaluation	Jun 1, 2012	Machine TranslationNatural Language Inference	—Unverified
SEME at SemEval-2024 Task 2: Comparing Masked and Generative Language Models on Natural Language Inference for Clinical Trials	Apr 5, 2024	Natural Language InferenceTask 2	—Unverified
SemEval-2012 Task 6: A Pilot on Semantic Textual Similarity	Jul 1, 2012	Coreference ResolutionMachine Translation	—Unverified
Semeval-2012 Task 8: Cross-lingual Textual Entailment for Content Synchronization	Jul 1, 2012	Document SummarizationInformation Retrieval	—Unverified
SemEval-2013 Task 7: The Joint Student Response Analysis and 8th Recognizing Textual Entailment Challenge	Jun 1, 2013	Natural Language Inference	—Unverified
Semeval-2013 Task 8: Cross-lingual Textual Entailment for Content Synchronization	Jun 1, 2013	Document SummarizationInformation Retrieval	—Unverified
SemEval-2014 Task 10: Multilingual Semantic Textual Similarity	Aug 1, 2014	Machine TranslationNatural Language Inference	—Unverified
SemEval-2014 Task 1: Evaluation of Compositional Distributional Semantic Models on Full Sentences through Semantic Relatedness and Textual Entailment	Aug 1, 2014	Natural Language InferenceSemantic Textual Similarity	—Unverified
SemEval-2015 Task 17: Taxonomy Extraction Evaluation (TExEval)	Jun 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2015 Task 2: Semantic Textual Similarity, English, Spanish and Pilot on Interpretability	Jun 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2016 Task 13: Taxonomy Extraction Evaluation (TExEval-2)	Jun 1, 2016	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2016 Task 1: Semantic Textual Similarity, Monolingual and Cross-Lingual Evaluation	Jun 1, 2016	Machine TranslationNatural Language Inference	—Unverified
SemEval-2016 Task 6: Detecting Stance in Tweets	Jun 1, 2016	Information RetrievalNatural Language Inference	—Unverified
SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation	Aug 1, 2017	Machine TranslationNatural Language Inference	—Unverified
SemEval-2018 Task 9: Hypernym Discovery	Jun 1, 2018	Binary ClassificationHypernym Discovery	—Unverified
SemEval-2020 Task 2: Predicting Multilingual and Cross-Lingual (Graded) Lexical Entailment	Dec 1, 2020	Lexical EntailmentNatural Language Inference	—Unverified
SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for Clinical Trial Data	May 4, 2023	Evidence SelectionNatural Language Inference	—Unverified
SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials	Apr 7, 2024	Decision MakingNatural Language Inference	—Unverified
Semi-Automatic Construction of a Textual Entailment Dataset: Selecting Candidates with Vector Space Models	Nov 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
Semi-Markov Phrase-Based Monolingual Alignment	Oct 1, 2013	Machine TranslationNatural Language Inference	—Unverified
Semi-Supervised Clustering for Short Answer Scoring	May 1, 2018	ClusteringMetric Learning	—Unverified
SenseBERT: Driving Some Sense into BERT	Aug 15, 2019	Language ModelingLanguage Modelling	—Unverified
Sentence Embedding Evaluation Using Pyramid Annotation	Aug 1, 2016	Natural Language InferenceSemantic Role Labeling	—Unverified
Sentence Modeling via Multiple Word Embeddings and Multi-level Comparison for Semantic Textual Similarity	May 21, 2018	Natural Language InferenceRelation	—Unverified
Sentence Pair Embeddings Based Evaluation Metric for Abstractive and Extractive Summarization	Jun 1, 2022	Extractive SummarizationNatural Language Inference	—Unverified
Sentiment-Stance-Specificity (SSS) Dataset: Identifying Support-based Entailment among Opinions.	May 1, 2018	Argument MiningNatural Language Inference	—Unverified
SERC: Syntactic and Semantic Sequence based Event Relation Classification	Nov 3, 2021	ClassificationNatural Language Inference	—Unverified
Service-oriented Text-to-SQL Parsing	Nov 1, 2020	Information RetrievalNatural Language Inference	—Unverified

Show:10 25 50

← PrevPage 20 of 40Next →

All datasets SNLI RTE MultiNLI QNLI ANLI test WNLI LiDiRus RCB TERRa CommitmentBank SciTail FarsTail

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	% Test Accuracy	94.7	—	Unverified
2	UnitedSynT5 (335M)	% Test Accuracy	93.5	—	Unverified
3	Neural Tree Indexers for Text Understanding	% Test Accuracy	93.1	—	Unverified
4	EFL (Entailment as Few-shot Learner) + RoBERTa-large	% Test Accuracy	93.1	—	Unverified
5	RoBERTa-large+Self-Explaining	% Test Accuracy	92.3	—	Unverified
6	RoBERTa-large + self-explaining layer	% Test Accuracy	92.3	—	Unverified
7	CA-MTL	% Test Accuracy	92.1	—	Unverified
8	SemBERT	% Test Accuracy	91.9	—	Unverified
9	MT-DNN-SMARTLARGEv0	% Test Accuracy	91.7	—	Unverified
10	MT-DNN-SMART_100%ofTrainingData	Dev Accuracy	91.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vega v2 6B (KD-based prompt transfer)	Accuracy	96	—	Unverified
2	PaLM 540B (fine-tuned)	Accuracy	95.7	—	Unverified
3	Turing NLR v5 XXL 5.4B (fine-tuned)	Accuracy	94.1	—	Unverified
4	ST-MoE-32B 269B (fine-tuned)	Accuracy	93.5	—	Unverified
5	DeBERTa-1.5B	Accuracy	93.2	—	Unverified
6	MUPPET Roberta Large	Accuracy	92.8	—	Unverified
7	DeBERTaV3large	Accuracy	92.7	—	Unverified
8	T5-XXL 11B (fine-tuned)	Accuracy	92.5	—	Unverified
9	T5-XXL 11B	Accuracy	92.5	—	Unverified
10	ST-MoE-L 4.1B (fine-tuned)	Accuracy	92.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	Matched	92.6	—	Unverified
2	Turing NLR v5 XXL 5.4B (fine-tuned)	Matched	92.6	—	Unverified
3	T5-XXL 11B (fine-tuned)	Matched	92	—	Unverified
4	T5	Matched	92	—	Unverified
5	T5-11B	Mismatched	91.7	—	Unverified
6	T5-3B	Matched	91.4	—	Unverified
7	ALBERT	Matched	91.3	—	Unverified
8	Adv-RoBERTa ensemble	Matched	91.1	—	Unverified
9	DeBERTa (large)	Matched	91.1	—	Unverified
10	SMARTRoBERTa	Dev Matched	91.1	—	Unverified