Natural Language Inference

Natural language inference (NLI) is the task of determining whether a "hypothesis" is true (entailment), false (contradiction), or undetermined (neutral) given a "premise".

Example:

| Premise | Label | Hypothesis | | --- | ---| --- | | A man inspects the uniform of a figure in some East Asian country. | contradiction | The man is sleeping. | | An older and younger man smiling. | neutral | Two men are smiling and laughing at the cats playing on the floor. | | A soccer game with multiple males playing. | entailment | Some men are playing a sport. |

Approaches used for NLI include earlier symbolic and statistical approaches to more recent deep learning approaches. Benchmark datasets used for NLI include SNLI, MultiNLI, SciTail, among others. You can get hands-on practice on the SNLI task by following this d2l.ai chapter.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1961 papers

Title	Date	Tasks	Status	Hype
LanSER: Language-Model Supported Speech Emotion Recognition	Sep 7, 2023	Automatic Speech RecognitionEmotion Recognition	—Unverified	0
A deep Natural Language Inference predictor without language-specific training data	Sep 6, 2023	Aspect-Based Sentiment AnalysisKnowledge Distillation	—Unverified	0
Exploiting Language Models as a Source of Knowledge for Cognitive Agents	Sep 5, 2023	Natural Language InferenceQuestion Answering	—Unverified	0
BatchPrompt: Accomplish more with less	Sep 1, 2023	8kLanguage Modelling	CodeCode Available	0
Link Prediction for Wikipedia Articles as a Natural Language Inference Task	Aug 31, 2023	ArticlesLink Prediction	CodeCode Available	0
CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias	Aug 24, 2023	DiversityLanguage Modeling	CodeCode Available	1
Lightweight Adaptation of Neural Language Models via Subspace Embedding	Aug 16, 2023	DiversityNatural Language Inference	CodeCode Available	0
Leveraging Codebook Knowledge with NLI and ChatGPT for Zero-Shot Political Relation Classification	Aug 15, 2023	ClassificationNatural Language Inference	CodeCode Available	0
Towards Controllable Natural Language Inference through Lexical Inference Types	Aug 7, 2023	Abstract Meaning RepresentationNatural Language Inference	—Unverified	0
Improving Domain-Specific Retrieval by NLI Fine-Tuning	Aug 6, 2023	Information RetrievalNatural Language Inference	—Unverified	0
Do Multilingual Language Models Think Better in English?	Aug 2, 2023	Common Sense ReasoningCross-Lingual Natural Language Inference	CodeCode Available	1
An Overview Of Temporal Commonsense Reasoning and Acquisition	Jul 28, 2023	Common Sense ReasoningLanguage Modelling	—Unverified	0
Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training	Jul 27, 2023	named-entity-recognitionNamed Entity Recognition	CodeCode Available	0
ARC-NLP at PAN 2023: Transition-Focused Natural Language Inference for Writing Style Detection	Jul 27, 2023	ARCNatural Language Inference	—Unverified	0
Selective Generation for Controllable Language Models	Jul 18, 2023	Conformal PredictionHallucination	CodeCode Available	1
Is Prompt-Based Finetuning Always Better than Vanilla Finetuning? Insights from Cross-Lingual Language Understanding	Jul 15, 2023	Cross-Lingual TransferNatural Language Inference	CodeCode Available	0
Improving Zero-shot Relation Classification via Automatically-acquired Entailment Templates	Jul 13, 2023	Natural Language InferenceRelation	—Unverified	0
Synthetic Dataset for Evaluating Complex Compositional Knowledge for Natural Language Inference	Jul 11, 2023	Natural Language InferenceNegation	CodeCode Available	0
NatLogAttack: A Framework for Attacking Natural Language Inference Models with Natural Logic	Jul 6, 2023	Natural Language Inference	—Unverified	0
LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias	Jul 6, 2023	Data AugmentationNatural Language Inference	CodeCode Available	0
SpaceNLI: Evaluating the Consistency of Predicting Inferences in Space	Jul 5, 2023	Natural Language InferenceNegation	CodeCode Available	0
Evaluating Paraphrastic Robustness in Textual Entailment Models	Jun 29, 2023	Natural Language InferenceRTE	—Unverified	0
Modeling Hierarchical Reasoning Chains by Linking Discourse Units and Key Phrases for Reading Comprehension	Jun 21, 2023	Logical ReasoningMachine Reading Comprehension	CodeCode Available	1
Jamp: Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models	Jun 19, 2023	Natural Language Inference	CodeCode Available	0
No Strong Feelings One Way or Another: Re-operationalizing Neutrality in Natural Language Inference	Jun 16, 2023	Natural Language Inference	—Unverified	0
Pushing the Limits of ChatGPT on NLP Tasks	Jun 16, 2023	Dependency ParsingEvent Extraction	—Unverified	0
Neural models for Factual Inconsistency Classification with Explanations	Jun 15, 2023	8kClassification	CodeCode Available	0
FLamE: Few-shot Learning from Natural Language Explanations	Jun 13, 2023	ClassificationFew-Shot Learning	—Unverified	0
NOWJ at COLIEE 2023 -- Multi-Task and Ensemble Approaches in Legal Information Processing	Jun 8, 2023	Multi-Task LearningNatural Language Inference	—Unverified	0
Analysis of the Fed's communication by using textual entailment model of Zero-Shot classification	Jun 7, 2023	Natural Language InferenceSentiment Analysis	—Unverified	0
PromptRobust: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts	Jun 7, 2023	Cross-Lingual Paraphrase IdentificationMachine Translation	—Unverified	0
Can current NLI systems handle German word order? Investigating language model performance on a new German challenge set of minimal pairs	Jun 7, 2023	Data AugmentationLanguage Modeling	CodeCode Available	0
LogiQA 2.0—An Improved Dataset for Logical Reasoning in Natural Language Understanding	Jun 6, 2023	Logical ReasoningLogical Reasoning Reading Comprehension	CodeCode Available	0
From Key Points to Key Point Hierarchy: Structured and Expressive Opinion Summarization	Jun 6, 2023	Natural Language InferenceOpinion Summarization	CodeCode Available	0
CUE: An Uncertainty Interpretation Framework for Text Classifiers Built on Pre-Trained Language Models	Jun 6, 2023	Emotion ClassificationLinguistic Acceptability	CodeCode Available	0
Evaluating the Effectiveness of Natural Language Inference for Hate Speech Detection in Languages with Limited Labeled Data	Jun 6, 2023	Hate Speech DetectionNatural Language Inference	CodeCode Available	0
A Study of Situational Reasoning for Traffic Understanding	Jun 5, 2023	Decision MakingKnowledge Graphs	CodeCode Available	1
bgGLUE: A Bulgarian General Language Understanding Evaluation Benchmark	Jun 4, 2023	Fact Checkingnamed-entity-recognition	CodeCode Available	0
Stubborn Lexical Bias in Data and Models	Jun 3, 2023	Natural Language Inference	—Unverified	0
THiFLY Research at SemEval-2023 Task 7: A Multi-granularity System for CTR-based Textual Entailment and Evidence Retrieval	Jun 2, 2023	Natural Language InferenceRetrieval	CodeCode Available	0
AMR4NLI: Interpretable and robust NLI measures from semantic graphs	Jun 1, 2023	Natural Language InferenceSentence	CodeCode Available	0
Assessing Word Importance Using Models Trained for Semantic Tasks	May 31, 2023	Natural Language InferenceParaphrase Identification	CodeCode Available	0
Factually Consistent Summarization via Reinforcement Learning with Textual Entailment Feedback	May 31, 2023	Abstractive Text SummarizationNatural Language Inference	—Unverified	0
What does the Failure to Reason with "Respectively" in Zero/Few-Shot Settings Tell Us about Language Models?	May 31, 2023	Common Sense ReasoningFew-Shot Learning	—Unverified	0
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets	May 29, 2023	Bias DetectionCode Generation	CodeCode Available	1
LM-CPPF: Paraphrasing-Guided Data Augmentation for Contrastive Prompt-Based Few-Shot Fine-Tuning	May 29, 2023	Contrastive LearningData Augmentation	CodeCode Available	1
Targeted Data Generation: Finding and Fixing Model Weaknesses	May 28, 2023	Data AugmentationNatural Language Inference	—Unverified	0
KNSE: A Knowledge-aware Natural Language Inference Framework for Dialogue Symptom Status Recognition	May 26, 2023	Natural Language InferenceTriplet	—Unverified	0
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function	May 26, 2023	Fact VerificationInformation Retrieval	CodeCode Available	4
Characterizing and Measuring Linguistic Dataset Drift	May 26, 2023	Natural Language InferenceSentiment Analysis	CodeCode Available	0

Show:10 25 50

← PrevPage 7 of 40Next →

All datasets SNLI RTE MultiNLI QNLI ANLI test WNLI LiDiRus RCB TERRa CommitmentBank SciTail FarsTail

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	% Test Accuracy	94.7	—	Unverified
2	UnitedSynT5 (335M)	% Test Accuracy	93.5	—	Unverified
3	EFL (Entailment as Few-shot Learner) + RoBERTa-large	% Test Accuracy	93.1	—	Unverified
4	Neural Tree Indexers for Text Understanding	% Test Accuracy	93.1	—	Unverified
5	RoBERTa-large + self-explaining layer	% Test Accuracy	92.3	—	Unverified
6	RoBERTa-large+Self-Explaining	% Test Accuracy	92.3	—	Unverified
7	CA-MTL	% Test Accuracy	92.1	—	Unverified
8	SemBERT	% Test Accuracy	91.9	—	Unverified
9	MT-DNN-SMARTLARGEv0	% Test Accuracy	91.7	—	Unverified
10	MT-DNN-SMART_100%ofTrainingData	Dev Accuracy	91.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vega v2 6B (KD-based prompt transfer)	Accuracy	96	—	Unverified
2	PaLM 540B (fine-tuned)	Accuracy	95.7	—	Unverified
3	Turing NLR v5 XXL 5.4B (fine-tuned)	Accuracy	94.1	—	Unverified
4	ST-MoE-32B 269B (fine-tuned)	Accuracy	93.5	—	Unverified
5	DeBERTa-1.5B	Accuracy	93.2	—	Unverified
6	MUPPET Roberta Large	Accuracy	92.8	—	Unverified
7	DeBERTaV3large	Accuracy	92.7	—	Unverified
8	T5-XXL 11B (fine-tuned)	Accuracy	92.5	—	Unverified
9	T5-XXL 11B	Accuracy	92.5	—	Unverified
10	UL2 20B (fine-tuned)	Accuracy	92.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	Matched	92.6	—	Unverified
2	Turing NLR v5 XXL 5.4B (fine-tuned)	Matched	92.6	—	Unverified
3	T5-XXL 11B (fine-tuned)	Matched	92	—	Unverified
4	T5	Matched	92	—	Unverified
5	T5-11B	Mismatched	91.7	—	Unverified
6	T5-3B	Matched	91.4	—	Unverified
7	ALBERT	Matched	91.3	—	Unverified
8	Adv-RoBERTa ensemble	Matched	91.1	—	Unverified
9	DeBERTa (large)	Matched	91.1	—	Unverified
10	SMARTRoBERTa	Dev Matched	91.1	—	Unverified