Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 7951–7975 of 10817 papers

Title	Date	Tasks	Status
AUTOHOME-ORCA at SemEval-2019 Task 8: Application of BERT for Fact-Checking in Community Forums	Jun 1, 2019	Community Question AnsweringFact Checking	—Unverified
A Natural Language Instructor for pedestrian navigation based in generation by selection	Apr 1, 2014	Question AnsweringText Generation	—Unverified
A Domain and Language Independent Named Entity Classification Approach Based on Profiles and Local Information	Sep 1, 2017	General ClassificationNamed Entity Recognition (NER)	—Unverified
A Coarse to Fine Question Answering System based on Reinforcement Learning	Jun 1, 2021	Deep Reinforcement LearningQuestion Answering	—Unverified
VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos	Jun 12, 2025	Question Answering	—Unverified
Ranking Automatically Generated Questions Using Common Human Queries	Sep 1, 2016	Question AnsweringText Generation	—Unverified
In-the-Wild Video Question Answering	Oct 1, 2022	Evidence SelectionQuestion Answering	—Unverified
Ranking Facts for Explaining Answers to Elementary Science Questions	Oct 18, 2021	Interpretable Machine LearningLearning-To-Rank	—Unverified
Inter-Weighted Alignment Network for Sentence Pair Modeling	Sep 1, 2017	Machine TranslationNatural Language Inference	—Unverified
Ranking Kernels for Structures and Embeddings: A Hybrid Preference and Classification Model	Sep 1, 2017	Community Question AnsweringGeneral Classification	—Unverified
Ranking LLMs by compression	Jun 20, 2024	coreference-resolutionCoreference Resolution	—Unverified
Interpreting Questions with a Log-Linear Ranking Model in a Virtual Patient Dialogue System	Jun 1, 2015	Question AnsweringSemantic Parsing	—Unverified
CS563-QA: A Collection for Evaluating Question Answering Systems	Jul 2, 2019	Natural Language UnderstandingQuestion Answering	—Unverified
Interpreting Consumer Health Questions: The Role of Anaphora and Ellipsis	Aug 1, 2013	Information RetrievalQuestion Answering	—Unverified
Interpreting Attention Models with Human Visual Attention in Machine Reading Comprehension	Jun 3, 2020	Machine Reading ComprehensionQuestion Answering	—Unverified
An Attentive Sequence Model for Adverse Drug Event Extraction from Biomedical Text	Jan 2, 2018	Event ExtractionGeneral Classification	—Unverified
Interpreting Anaphoric Shell Nouns using Antecedents of Cataphoric Shell Nouns as Training Data	Oct 1, 2013	Question AnsweringText Summarization	—Unverified
Interpretation of Natural Language Rules in Conversational Machine Reading	Aug 28, 2018	Question AnsweringReading Comprehension	—Unverified
Crowdsourcing Inference-Rule Evaluation	Jul 1, 2012	Natural Language InferenceQuestion Answering	—Unverified
Interpretable Visual Reasoning via Probabilistic Formulation under Natural Supervision	Aug 1, 2020	Question AnsweringVisual Question Answering	—Unverified
Interpretable Visual Question Answering via Reasoning Supervision	Sep 7, 2023	Common Sense ReasoningQuestion Answering	—Unverified
Crowdsourcing for the identification of event nominals: an experiment	May 1, 2014	Question Answering	—Unverified
AutoEQA: Auto-Encoding Questions for Extractive Question Answering	Nov 1, 2021	Extractive Question-AnsweringQuestion Answering	—Unverified
Interpretable Visual Question Answering by Visual Grounding from Attention Supervision Mining	Aug 1, 2018	Question AnsweringVisual Grounding	—Unverified
Interpretable Visual Question Answering by Reasoning on Dependency Trees	Sep 6, 2018	Question Answeringvalid	—Unverified

Show:10 25 50

← PrevPage 319 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified