Natural Language Inference

Natural language inference (NLI) is the task of determining whether a "hypothesis" is true (entailment), false (contradiction), or undetermined (neutral) given a "premise".

Example:

| Premise | Label | Hypothesis | | --- | ---| --- | | A man inspects the uniform of a figure in some East Asian country. | contradiction | The man is sleeping. | | An older and younger man smiling. | neutral | Two men are smiling and laughing at the cats playing on the floor. | | A soccer game with multiple males playing. | entailment | Some men are playing a sport. |

Approaches used for NLI include earlier symbolic and statistical approaches to more recent deep learning approaches. Benchmark datasets used for NLI include SNLI, MultiNLI, SciTail, among others. You can get hands-on practice on the SNLI task by following this d2l.ai chapter.

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 301–350 of 1961 papers

Title	Date	Tasks	Status
Thunder-NUBench: A Benchmark for LLMs' Sentence-Level Negation Understanding	Jun 17, 2025	Multiple-choiceNatural Language Inference	—Unverified
When Does Meaning Backfire? Investigating the Role of AMRs in NLI	Jun 17, 2025	Abstract Meaning RepresentationNatural Language Inference	—Unverified
Explainable Compliance Detection with Multi-Hop Natural Language Inference on Assurance Case Structure	Jun 10, 2025	Natural Language Inference	—Unverified
Theorem-of-Thought: A Multi-Agent Framework for Abductive, Deductive, and Inductive Reasoning in Language Models	Jun 8, 2025	Natural Language Inference	CodeCode Available
CLATTER: Comprehensive Entailment Reasoning for Hallucination Detection	Jun 5, 2025	HallucinationNatural Language Inference	—Unverified
A MISMATCHED Benchmark for Scientific Natural Language Inference	Jun 5, 2025	ArticlesNatural Language Inference	CodeCode Available
Drop Dropout on Single-Epoch Language Model Pretraining	May 30, 2025	Language ModelingLanguage Modelling	CodeCode Available
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training	May 30, 2025	MTEB BenchmarkNatural Language Inference	—Unverified
Faithful and Robust LLM-Driven Theorem Proving for NLI Explanations	May 30, 2025	Automated Theorem ProvingNatural Language Inference	—Unverified
Preemptive Hallucination Reduction: An Input-Level Approach for Multimodal Language Model	May 29, 2025	HallucinationLanguage Modeling	—Unverified
LiTEx: A Linguistic Taxonomy of Explanations for Understanding Within-Label Variation in Natural Language Inference	May 28, 2025	Explanation GenerationNatural Language Inference	CodeCode Available
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning	May 26, 2025	DiversityMath	—Unverified
S2LPP: Small-to-Large Prompt Prediction across LLMs	May 26, 2025	Natural Language InferencePrediction	—Unverified
DeFTX: Denoised Sparse Fine-Tuning for Zero-Shot Cross-Lingual Transfer	May 21, 2025	Cross-Lingual TransferNatural Language Inference	—Unverified
No Gold Standard, No Problem: Reference-Free Evaluation of Taxonomies	May 16, 2025	Natural Language Inference	—Unverified
Boosting Neural Language Inference via Cascaded Interactive Reasoning	May 10, 2025	Natural Language InferenceRelational Reasoning	—Unverified
Document Attribution: Examining Citation Relationships using Large Language Models	May 9, 2025	Document SummarizationNatural Language Inference	—Unverified
Parameter-Efficient Transformer Embeddings	May 4, 2025	Natural Language InferenceSentence	CodeCode Available
Pushing the boundary on Natural Language Inference	Apr 25, 2025	Fact CheckingInformation Retrieval	—Unverified
Grounded in Context: Retrieval-Based Method for Hallucination Detection	Apr 22, 2025	HallucinationNatural Language Inference	—Unverified
SALAD: Improving Robustness and Generalization through Contrastive Learning with Structure-Aware and LLM-Driven Augmented Data	Apr 16, 2025	Contrastive Learningcounterfactual	—Unverified
MedHal: An Evaluation Dataset for Medical Hallucination Detection	Apr 11, 2025	HallucinationNatural Language Inference	—Unverified
Cross-Document Cross-Lingual NLI via RST-Enhanced Graph Fusion and Interpretability Prediction	Apr 11, 2025	Cross-Lingual Natural Language InferenceGraph Attention	—Unverified
Negation: A Pink Elephant in the Large Language Models' Room?	Mar 28, 2025	Language ModelingLanguage Modelling	—Unverified
HausaNLP at SemEval-2025 Task 3: Towards a Fine-Grained Model-Aware Hallucination Detection	Mar 25, 2025	HallucinationNatural Language Inference	—Unverified
Don't Fight Hallucinations, Use Them: Estimating Image Realism using NLI over Atomic Facts	Mar 20, 2025	Common Sense ReasoningNatural Language Inference	CodeCode Available
Am I eligible? Natural Language Inference for Clinical Trial Patient Recruitment: the Patient's Point of View	Mar 19, 2025	Natural Language Inference	CodeCode Available
Neutralizing Bias in LLM Reasoning using Entailment Graphs	Mar 14, 2025	counterfactualCounterfactual Reasoning	CodeCode Available
Collaboration is all you need: LLM Assisted Safe Code Translation	Mar 14, 2025	AllCode Translation	—Unverified
Introducing Verification Task of Set Consistency with Set-Consistency Energy Networks	Mar 12, 2025	Natural Language Inference	—Unverified
ESNLIR: A Spanish Multi-Genre Dataset with Causal Relationships	Mar 11, 2025	Natural Language InferenceRTE	—Unverified
Patient Trajectory Prediction: Integrating Clinical Notes with Transformers	Feb 25, 2025	ClassificationDiagnostic	CodeCode Available
Giving AI Personalities Leads to More Human-Like Reasoning	Feb 19, 2025	Natural Language Inference	—Unverified
Neuro-Symbolic Contrastive Learning for Cross-domain Inference	Feb 13, 2025	Contrastive LearningInductive logic programming	—Unverified
MorphNLI: A Stepwise Approach to Natural Language Inference Using Text Morphing	Feb 13, 2025	Language ModelingLanguage Modelling	—Unverified
Beyond English: The Impact of Prompt Translation Strategies across Languages and Tasks in Multilingual LLMs	Feb 13, 2025	Abstractive Text Summarizationnamed-entity-recognition	—Unverified
Does Training on Synthetic Data Make Models Less Robust?	Feb 11, 2025	Natural Language Inference	—Unverified
Discourse-Driven Evaluation: Unveiling Factual Inconsistency in Long Document Summarization	Feb 10, 2025	Document SummarizationNatural Language Inference	—Unverified
Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks	Feb 7, 2025	Abstractive Text SummarizationExplanation Generation	CodeCode Available
TrustDataFilter:Leveraging Trusted Knowledge Base Data for More Effective Filtering of Unknown Information	Jan 25, 2025	Natural Language Inference	—Unverified
A Study of the Plausibility of Attention between RNN Encoders in Natural Language Inference	Jan 23, 2025	Natural Language InferenceSentence	—Unverified
Academic Case Reports Lack Diversity: Assessing the Presence and Diversity of Sociodemographic and Behavioral Factors related to Post COVID-19 Condition	Jan 21, 2025	Data AugmentationDiversity	—Unverified
Zero-shot and Few-shot Learning with Instruction-following LLMs for Claim Matching in Automated Fact-checking	Jan 18, 2025	Binary ClassificationFact Checking	—Unverified
Exploring Robustness of Multilingual LLMs on Real-World Noisy Data	Jan 14, 2025	intent-classificationIntent Classification	CodeCode Available
Entailed Between the Lines: Incorporating Implication into NLI	Jan 13, 2025	Natural Language Inference	CodeCode Available
Language Fusion for Parameter-Efficient Cross-lingual Transfer	Jan 12, 2025	Cross-Lingual TransferNatural Language Inference	CodeCode Available
Assessing Language Comprehension in Large Language Models Using Construction Grammar	Jan 8, 2025	Natural Language InferenceNatural Language Understanding	—Unverified
From Superficial Patterns to Semantic Understanding: Fine-Tuning Language Models on Contrast Sets	Jan 5, 2025	Language ModelingLanguage Modelling	—Unverified
Tougher Text, Smarter Models: Raising the Bar for Adversarial Defence Benchmarks	Jan 5, 2025	Adversarial RobustnessBenchmarking	CodeCode Available
HindiLLM: Large Language Model for Hindi	Dec 29, 2024	Language ModelingLanguage Modelling	—Unverified

Show:10 25 50

← PrevPage 7 of 40Next →

All datasets SNLI RTE MultiNLI QNLI ANLI test WNLI LiDiRus RCB TERRa CommitmentBank SciTail FarsTail

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	% Test Accuracy	94.7	—	Unverified
2	UnitedSynT5 (335M)	% Test Accuracy	93.5	—	Unverified
3	EFL (Entailment as Few-shot Learner) + RoBERTa-large	% Test Accuracy	93.1	—	Unverified
4	Neural Tree Indexers for Text Understanding	% Test Accuracy	93.1	—	Unverified
5	RoBERTa-large + self-explaining layer	% Test Accuracy	92.3	—	Unverified
6	RoBERTa-large+Self-Explaining	% Test Accuracy	92.3	—	Unverified
7	CA-MTL	% Test Accuracy	92.1	—	Unverified
8	SemBERT	% Test Accuracy	91.9	—	Unverified
9	MT-DNN-SMARTLARGEv0	% Test Accuracy	91.7	—	Unverified
10	MT-DNN-SMART_100%ofTrainingData	Dev Accuracy	91.6	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	Vega v2 6B (KD-based prompt transfer)	Accuracy	96	—	Unverified
2	PaLM 540B (fine-tuned)	Accuracy	95.7	—	Unverified
3	Turing NLR v5 XXL 5.4B (fine-tuned)	Accuracy	94.1	—	Unverified
4	ST-MoE-32B 269B (fine-tuned)	Accuracy	93.5	—	Unverified
5	DeBERTa-1.5B	Accuracy	93.2	—	Unverified
6	MUPPET Roberta Large	Accuracy	92.8	—	Unverified
7	DeBERTaV3large	Accuracy	92.7	—	Unverified
8	T5-XXL 11B (fine-tuned)	Accuracy	92.5	—	Unverified
9	T5-XXL 11B	Accuracy	92.5	—	Unverified
10	UL2 20B (fine-tuned)	Accuracy	92.1	—	Unverified

#	Model	Metric	Claimed	Verified	Status
1	UnitedSynT5 (3B)	Matched	92.6	—	Unverified
2	Turing NLR v5 XXL 5.4B (fine-tuned)	Matched	92.6	—	Unverified
3	T5-XXL 11B (fine-tuned)	Matched	92	—	Unverified
4	T5	Matched	92	—	Unverified
5	T5-11B	Mismatched	91.7	—	Unverified
6	T5-3B	Matched	91.4	—	Unverified
7	ALBERT	Matched	91.3	—	Unverified
8	Adv-RoBERTa ensemble	Matched	91.1	—	Unverified
9	DeBERTa (large)	Matched	91.1	—	Unverified
10	SMARTRoBERTa	Dev Matched	91.1	—	Unverified