Natural Language Inference

Natural language inference (NLI) is the task of determining whether a "hypothesis" is true (entailment), false (contradiction), or undetermined (neutral) given a "premise".

Example:

| Premise | Label | Hypothesis | | --- | ---| --- | | A man inspects the uniform of a figure in some East Asian country. | contradiction | The man is sleeping. | | An older and younger man smiling. | neutral | Two men are smiling and laughing at the cats playing on the floor. | | A soccer game with multiple males playing. | entailment | Some men are playing a sport. |

Approaches used for NLI include earlier symbolic and statistical approaches to more recent deep learning approaches. Benchmark datasets used for NLI include SNLI, MultiNLI, SciTail, among others. You can get hands-on practice on the SNLI task by following this d2l.ai chapter.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 976–1000 of 1961 papers

Title	Date	Tasks	Status
Semeval-2012 Task 8: Cross-lingual Textual Entailment for Content Synchronization	Jul 1, 2012	Document SummarizationInformation Retrieval	—Unverified
SemEval-2013 Task 7: The Joint Student Response Analysis and 8th Recognizing Textual Entailment Challenge	Jun 1, 2013	Natural Language Inference	—Unverified
Semeval-2013 Task 8: Cross-lingual Textual Entailment for Content Synchronization	Jun 1, 2013	Document SummarizationInformation Retrieval	—Unverified
SemEval-2014 Task 10: Multilingual Semantic Textual Similarity	Aug 1, 2014	Machine TranslationNatural Language Inference	—Unverified
SemEval-2014 Task 1: Evaluation of Compositional Distributional Semantic Models on Full Sentences through Semantic Relatedness and Textual Entailment	Aug 1, 2014	Natural Language InferenceSemantic Textual Similarity	—Unverified
SemEval-2015 Task 17: Taxonomy Extraction Evaluation (TExEval)	Jun 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2015 Task 2: Semantic Textual Similarity, English, Spanish and Pilot on Interpretability	Jun 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2016 Task 13: Taxonomy Extraction Evaluation (TExEval-2)	Jun 1, 2016	Natural Language InferenceQuestion Answering	—Unverified
SemEval-2016 Task 1: Semantic Textual Similarity, Monolingual and Cross-Lingual Evaluation	Jun 1, 2016	Machine TranslationNatural Language Inference	—Unverified
SemEval-2016 Task 6: Detecting Stance in Tweets	Jun 1, 2016	Information RetrievalNatural Language Inference	—Unverified
SemEval-2017 Task 1: Semantic Textual Similarity Multilingual and Crosslingual Focused Evaluation	Aug 1, 2017	Machine TranslationNatural Language Inference	—Unverified
SemEval-2018 Task 9: Hypernym Discovery	Jun 1, 2018	Binary ClassificationHypernym Discovery	—Unverified
SemEval-2020 Task 2: Predicting Multilingual and Cross-Lingual (Graded) Lexical Entailment	Dec 1, 2020	Lexical EntailmentNatural Language Inference	—Unverified
SemEval-2023 Task 7: Multi-Evidence Natural Language Inference for Clinical Trial Data	May 4, 2023	Evidence SelectionNatural Language Inference	—Unverified
SemEval-2024 Task 2: Safe Biomedical Natural Language Inference for Clinical Trials	Apr 7, 2024	Decision MakingNatural Language Inference	—Unverified
Semi-Automatic Construction of a Textual Entailment Dataset: Selecting Candidates with Vector Space Models	Nov 1, 2015	Natural Language InferenceQuestion Answering	—Unverified
Semi-Markov Phrase-Based Monolingual Alignment	Oct 1, 2013	Machine TranslationNatural Language Inference	—Unverified
Semi-Supervised Clustering for Short Answer Scoring	May 1, 2018	ClusteringMetric Learning	—Unverified
SenseBERT: Driving Some Sense into BERT	Aug 15, 2019	Language ModelingLanguage Modelling	—Unverified
Sentence Embedding Evaluation Using Pyramid Annotation	Aug 1, 2016	Natural Language InferenceSemantic Role Labeling	—Unverified
Sentence Modeling via Multiple Word Embeddings and Multi-level Comparison for Semantic Textual Similarity	May 21, 2018	Natural Language InferenceRelation	—Unverified
Sentence Pair Embeddings Based Evaluation Metric for Abstractive and Extractive Summarization	Jun 1, 2022	Extractive SummarizationNatural Language Inference	—Unverified
Sentiment-Stance-Specificity (SSS) Dataset: Identifying Support-based Entailment among Opinions.	May 1, 2018	Argument MiningNatural Language Inference	—Unverified
SERC: Syntactic and Semantic Sequence based Event Relation Classification	Nov 3, 2021	ClassificationNatural Language Inference	—Unverified
Service-oriented Text-to-SQL Parsing	Nov 1, 2020	Information RetrievalNatural Language Inference	—Unverified

Show:10 25 50

← PrevPage 40 of 79Next →

All datasets SNLI RTE MultiNLI QNLI ANLI test WNLI LiDiRus RCB TERRa CommitmentBank SciTail FarsTail

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	% Test Accuracy	94.7	—	Unverified
2	UnitedSynT5 (335M)	% Test Accuracy	93.5	—	Unverified
3	Neural Tree Indexers for Text Understanding	% Test Accuracy	93.1	—	Unverified
4	EFL (Entailment as Few-shot Learner) + RoBERTa-large	% Test Accuracy	93.1	—	Unverified
5	RoBERTa-large+Self-Explaining	% Test Accuracy	92.3	—	Unverified
6	RoBERTa-large + self-explaining layer	% Test Accuracy	92.3	—	Unverified
7	CA-MTL	% Test Accuracy	92.1	—	Unverified
8	SemBERT	% Test Accuracy	91.9	—	Unverified
9	MT-DNN-SMARTLARGEv0	% Test Accuracy	91.7	—	Unverified
10	MT-DNN-SMART_100%ofTrainingData	Dev Accuracy	91.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vega v2 6B (KD-based prompt transfer)	Accuracy	96	—	Unverified
2	PaLM 540B (fine-tuned)	Accuracy	95.7	—	Unverified
3	Turing NLR v5 XXL 5.4B (fine-tuned)	Accuracy	94.1	—	Unverified
4	ST-MoE-32B 269B (fine-tuned)	Accuracy	93.5	—	Unverified
5	DeBERTa-1.5B	Accuracy	93.2	—	Unverified
6	MUPPET Roberta Large	Accuracy	92.8	—	Unverified
7	DeBERTaV3large	Accuracy	92.7	—	Unverified
8	T5-XXL 11B (fine-tuned)	Accuracy	92.5	—	Unverified
9	T5-XXL 11B	Accuracy	92.5	—	Unverified
10	ST-MoE-L 4.1B (fine-tuned)	Accuracy	92.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	Matched	92.6	—	Unverified
2	Turing NLR v5 XXL 5.4B (fine-tuned)	Matched	92.6	—	Unverified
3	T5-XXL 11B (fine-tuned)	Matched	92	—	Unverified
4	T5	Matched	92	—	Unverified
5	T5-11B	Mismatched	91.7	—	Unverified
6	T5-3B	Matched	91.4	—	Unverified
7	ALBERT	Matched	91.3	—	Unverified
8	Adv-RoBERTa ensemble	Matched	91.1	—	Unverified
9	DeBERTa (large)	Matched	91.1	—	Unverified
10	SMARTRoBERTa	Dev Matched	91.1	—	Unverified