Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2201–2250 of 10817 papers

Title	Date	Tasks	Status	Hype
Contextual Word Representations: A Contextual Introduction	Feb 15, 2019	Question AnsweringTranslation	CodeCode Available	1
Language Models are Unsupervised Multitask Learners	Feb 14, 2019	Common Sense ReasoningCoreference Resolution	CodeCode Available	1
BioBERT: a pre-trained biomedical language representation model for biomedical text mining	Jan 25, 2019	Drug–drug Interaction ExtractionFew-Shot Learning	CodeCode Available	1
Densely Connected Attention Propagation for Reading Comprehension	Nov 10, 2018	AllOpen-Domain Question Answering	CodeCode Available	1
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge	Nov 2, 2018	Common Sense ReasoningMultiple-choice	CodeCode Available	1
Paragraph-level Neural Question Generation with Maxout Pointer and Gated Self-attention Networks	Oct 1, 2018	Question AnsweringQuestion Generation	CodeCode Available	1
HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering	Sep 25, 2018	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1
Transforming Question Answering Datasets Into Natural Language Inference Datasets	Sep 9, 2018	Natural Language InferenceQuestion Answering	CodeCode Available	1
Faithful Multimodal Explanation for Visual Question Answering	Sep 8, 2018	Explanatory Visual Question AnsweringQuestion Answering	CodeCode Available	1
emrQA: A Large Corpus for Question Answering on Electronic Medical Records	Sep 3, 2018	FormQuestion Answering	CodeCode Available	1
Evaluating Theory of Mind in Question Answering	Aug 28, 2018	Question Answering	CodeCode Available	1
Explainable Neural Computation via Stack Neural Module Networks	Jul 23, 2018	Decision MakingQuestion Answering	CodeCode Available	1
Jack the Reader - A Machine Reading Framework	Jun 20, 2018	ArticlesLink Prediction	CodeCode Available	1
The Natural Language Decathlon: Multitask Learning as Question Answering	Jun 20, 2018	DecoderDomain Adaptation	CodeCode Available	1
Know What You Don't Know: Unanswerable Questions for SQuAD	Jun 11, 2018	Natural Language UnderstandingQuestion Answering	CodeCode Available	1
Improving Language Understanding by Generative Pre-Training	Jun 11, 2018	Cloze TestDocument Classification	CodeCode Available	1
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering	May 24, 2018	Question AnsweringRelation	CodeCode Available	1
QANet: Combining Local Convolution with Global Self-Attention for Reading Comprehension	Apr 23, 2018	Machine TranslationQuestion Answering	CodeCode Available	1
Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension	Apr 1, 2018	Question AnsweringReading Comprehension	CodeCode Available	1
Deep contextualized word representations	Feb 15, 2018	Citation Intent ClassificationConversational Response Selection	CodeCode Available	1
Interactive Grounded Language Acquisition and Generalization in a 2D World	Jan 31, 2018	Language AcquisitionQuestion Answering	CodeCode Available	1
AI2-THOR: An Interactive 3D Environment for Visual AI	Dec 14, 2017	Deep Reinforcement LearningImitation Learning	CodeCode Available	1
Graph Attention Networks	Oct 30, 2017	Document ClassificationGraph Attention	CodeCode Available	1
Indirect Supervision for Relation Extraction using Question-Answer Pairs	Oct 30, 2017	Question AnsweringRelation	CodeCode Available	1
Simple and Effective Multi-Paragraph Reading Comprehension	Oct 29, 2017	Question AnsweringReading Comprehension	CodeCode Available	1
Learning to Rank Question-Answer Pairs using Hierarchical Recurrent Encoder with Latent Topic Clustering	Oct 10, 2017	Answer SelectionClustering	CodeCode Available	1
A Deep Generative Framework for Paraphrase Generation	Sep 15, 2017	DecoderInformation Retrieval	CodeCode Available	1
SemEval-2017 Task 1: Semantic Textual Similarity - Multilingual and Cross-lingual Focused Evaluation	Jul 31, 2017	Machine TranslationQuestion Answering	CodeCode Available	1
Reading Wikipedia to Answer Open-Domain Questions	Mar 31, 2017	ArticlesOpen-Domain Question Answering	CodeCode Available	1
Emergence of Grounded Compositional Language in Multi-Agent Populations	Mar 15, 2017	Machine TranslationQuestion Answering	CodeCode Available	1
Making Neural QA as Simple as Possible but not Simpler	Mar 14, 2017	Question AnsweringReading Comprehension	CodeCode Available	1
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning	Dec 20, 2016	DiagnosticQuestion Answering	CodeCode Available	1
MS MARCO: A Human Generated MAchine Reading COmprehension Dataset	Nov 28, 2016	BenchmarkingMachine Reading Comprehension	CodeCode Available	1
DeepSense: A Unified Deep Learning Framework for Time-Series Mobile Sensing Data Processing	Nov 7, 2016	Activity RecognitionGeneral Classification	CodeCode Available	1
Words or Characters? Fine-grained Gating for Reading Comprehension	Nov 6, 2016	Question AnsweringReading Comprehension	CodeCode Available	1
AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding	Nov 1, 2016	Entity TypingNamed Entity Recognition (NER)	CodeCode Available	1
SQuAD: 100,000+ Questions for Machine Comprehension of Text	Jun 16, 2016	ArticlesQuestion Answering	CodeCode Available	1
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations	Feb 23, 2016	image-classificationImage Classification	CodeCode Available	1
Compositional Semantic Parsing on Semi-Structured Tables	Aug 3, 2015	Question AnsweringSemantic Parsing	CodeCode Available	1
Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks	Feb 19, 2015	Question AnsweringReading Comprehension	CodeCode Available	1
City-VLM: Towards Multidomain Perception Scene Understanding via Multimodal Incomplete Learning	Jul 17, 2025	Question AnsweringScene Understanding	—Unverified	0
Enter the Mind Palace: Reasoning and Planning for Long-term Active Embodied Question Answering	Jul 17, 2025	Embodied Question AnsweringQuestion Answering	—Unverified	0
From Roots to Rewards: Dynamic Tree Reasoning with RL	Jul 17, 2025	Computational EfficiencyQuestion Answering	CodeCode Available	0
Vision-and-Language Training Helps Deploy Taxonomic Knowledge but Does Not Fundamentally Alter It	Jul 17, 2025	Question Answering	—Unverified	0
Is This Just Fantasy? Language Model Representations Reflect Human Judgments of Event Plausibility	Jul 16, 2025	Language ModelingLanguage Modelling	—Unverified	0
Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights	Jul 9, 2025	DiagnosticMedical Visual Question Answering	—Unverified	0
Evaluating Attribute Confusion in Fashion Text-to-Image Generation	Jul 9, 2025	Attributecross-modal alignment	—Unverified	0
LinguaMark: Do Multimodal Models Speak Fairly? A Benchmark-Based Evaluation	Jul 9, 2025	Question AnsweringVisual Question Answering	—Unverified	0
MagiC: Evaluating Multimodal Cognition Toward Grounded Visual Reasoning	Jul 9, 2025	DiagnosticMultimodal Reasoning	—Unverified	0
Enhancing Scientific Visual Question Answering through Multimodal Reasoning and Ensemble Modeling	Jul 8, 2025	ArticlesMultimodal Reasoning	—Unverified	0

Show:10 25 50

← PrevPage 45 of 217Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified