Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 10801–10817 of 10817 papers

Title	Date	Tasks	Status
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base	Nov 16, 2021	Question AnsweringSemantic Similarity	—Unverified
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base	Jul 27, 2022	Question AnsweringSemantic Similarity	—Unverified
Uncertainty Distillation: Teaching Language Models to Express Semantic Confidence	Mar 18, 2025	Question AnsweringUncertainty Quantification	—Unverified
Uncertainty Estimation of Large Language Models in Medical Question Answering	Jul 11, 2024	Medical Question AnsweringQuestion Answering	—Unverified
Uncertainty-Guided Self-Questioning and Answering for Video-Language Alignment	Sep 17, 2024	Question AnsweringVideo Question Answering	—Unverified
UNCERTAINTY-LINE: Length-Invariant Estimation of Uncertainty for Large Language Models	May 25, 2025	Machine TranslationQuestion Answering	—Unverified
Uncertainty Modeling for Machine Comprehension Systems using Efficient Bayesian Neural Networks	Dec 1, 2020	Active LearningDialogue Generation	—Unverified
UNCLE: Uncertainty Expressions in Long-Form Generation	May 22, 2025	4kForm	—Unverified
UnCommonSense: Informative Negative Knowledge about Everyday Concepts	Aug 19, 2022	InformativenessQuestion Answering	—Unverified
Uncovering Bias in Large Vision-Language Models with Counterfactuals	Mar 29, 2024	counterfactualQuestion Answering	—Unverified
Uncovering Bias in Large Vision-Language Models at Scale with Counterfactuals	May 30, 2024	counterfactualQuestion Answering	—Unverified
Uncovering Code-Mixed Challenges: A Framework for Linguistically Driven Question Generation and Neural Based Question Answering	Oct 1, 2018	Question AnsweringQuestion Generation	—Unverified
Uncovering Factor Level Preferences to Improve Human-Model Alignment	Oct 9, 2024	Language ModellingLarge Language Model	—Unverified
Uncovering Temporal Context for Video Question and Answering	Nov 15, 2015	DecoderMultiple-choice	—Unverified
Understanding and Constructing Latent Modality Structures in Multi-modal Representation Learning	Mar 10, 2023	Few-Shot Image Classificationimage-classification	—Unverified
Understanding and Improving Zero-shot Multi-hop Reasoning in Generative Question Answering	Oct 9, 2022	Generative Question AnsweringQuestion Answering	—Unverified
Understanding Attention for Vision-and-Language Tasks	Dec 17, 2021	Image GenerationImage Retrieval	—Unverified

Show:10 25 50

← PrevPage 217 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified