Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 6076–6100 of 10817 papers

Title	Date	Tasks	Status
Fill-in-the-Blank: A Challenging Video Understanding Evaluation Framework	Nov 16, 2021	Multiple-choiceQuestion Answering	—Unverified
Fantastic Questions and Where to Find Them: FairytaleQA--An Authentic Dataset for Narrative Comprehension	Nov 16, 2021	BenchmarkingQuestion Answering	—Unverified
Fair comparison of knowledge graphs for question answering	Nov 16, 2021	Knowledge GraphsQuestion Answering	—Unverified
ArchivalQA: A Large-scale Benchmark Dataset for Open Domain Question Answering over Archival News Collections	Nov 16, 2021	Open-Domain Question AnsweringQuestion Answering	—Unverified
Calibration of Machine Reading Systems at Scale	Nov 16, 2021	Claim VerificationOpen-Domain Question Answering	—Unverified
Retrieval Data Augmentation Informed by Downstream Question Answering Performance	Nov 16, 2021	Data AugmentationQuestion Answering	—Unverified
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base	Nov 16, 2021	Question AnsweringSemantic Similarity	—Unverified
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation	Nov 16, 2021	Image CaptioningKnowledge Distillation	—Unverified
E-KAR: A Benchmark for Rationalizing Natural Language Analogical Reasoning	Nov 16, 2021	Explanation GenerationQuestion Answering	—Unverified
Probing Difficulty and Discrimination of Natural Language Questions With Item Response Theory	Nov 16, 2021	Active LearningQuestion Answering	—Unverified
Using Interactive Feedback to Improve the Accuracy and Explainability of Question Answering Systems Post-Deployment	Nov 16, 2021	Question AnsweringRetrieval	—Unverified
DrugEHRQA: A Question Answering Dataset on Structured and Unstructured Electronic Health Records For Medicine Related Queries	Nov 16, 2021	Question AnsweringText to SQL	—Unverified
Delving Deep into Extractive Question Answering Data	Nov 16, 2021	Extractive Question-AnsweringQuestion Answering	—Unverified
Towards Faithful Response Generation for Chinese Table Question Answering	Nov 16, 2021	Question AnsweringResponse Generation	—Unverified
It is AI’s Turn to Ask Human a Question: Question and Answer Pair Generation for Children Storybooks in FairytaleQA Dataset	Nov 16, 2021	Answer GenerationQuestion-Answer-Generation	—Unverified
Cross-Task Generalization via Natural Language Crowdsourcing Instructions	Nov 16, 2021	Question Answering	—Unverified
Towards Transparent Interactive Semantic Parsing via Step-by-Step Correction	Nov 16, 2021	Question AnsweringSemantic Parsing	—Unverified
On the Multilingual Capabilities of Very Large-Scale English Language Models	Nov 16, 2021	Extractive Question-AnsweringFew-Shot Learning	—Unverified
CQARE: Contrastive Question-Answering for Few-shot Relation Extraction with Prompt Tuning	Nov 16, 2021	Cross-Domain Few-ShotPrompt Engineering	—Unverified
Co-VQA : Answering by Interactive Sub Question Sequence	Nov 16, 2021	Question AnsweringVisual Question Answering	—Unverified
Context-Paraphrase Enhanced Commonsense Question Answering	Nov 16, 2021	Machine Reading ComprehensionQuestion Answering	—Unverified
Unsupervised Open-Domain Question Answering with Higher Answerability	Nov 16, 2021	Machine Reading ComprehensionOpen-Domain Question Answering	—Unverified
Modeling Multi-hop Question Answering as Single Sequence Prediction	Nov 16, 2021	Answer GenerationDecoder	—Unverified
Retrieval-guided Counterfactual Generation for QA	Nov 16, 2021	counterfactualData Augmentation	—Unverified
Get Your Model Puzzled: Introducing Crossword-Solving as a New NLP Benchmark	Nov 16, 2021	Natural Language UnderstandingOpen-Domain Question Answering	—Unverified

Show:10 25 50

← PrevPage 244 of 433Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified