Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 951–960 of 10817 papers

Title	Date	Tasks	Status	Hype
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies	Jan 6, 2021	Question AnsweringStrategyQA	CodeCode Available	1
Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word Alignment	Jun 11, 2021	DenoisingLanguage Modeling	CodeCode Available	1
Improving Retrieval-Augmented Large Language Models via Data Importance Learning	Jul 6, 2023	ImputationQuestion Answering	CodeCode Available	1
Improving Selective Visual Question Answering by Learning from Your Peers	Jun 14, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1
Increasing Coverage and Precision of Textual Information in Multilingual Knowledge Graphs	Nov 27, 2023	Entity LinkingKnowledge Graph Completion	CodeCode Available	1
Increasing Model Capacity for Free: A Simple Strategy for Parameter Efficient Fine-tuning	Jul 1, 2024	image-classificationImage Classification	CodeCode Available	1
DialSim: A Real-Time Simulator for Evaluating Long-Term Multi-Party Dialogue Understanding of Conversational Agents	Jun 19, 2024	Dialogue UnderstandingQuestion Answering	CodeCode Available	1
IndicSQuAD: A Comprehensive Multilingual Question Answering Dataset for Indic Languages	May 6, 2025	Question Answering	CodeCode Available	1
Latent Retrieval for Weakly Supervised Open Domain Question Answering	Jun 1, 2019	Information RetrievalOpen-Domain Question Answering	CodeCode Available	1
Differentiable Reasoning on Large Knowledge Bases and Natural Language	Dec 17, 2019	Link PredictionQuestion Answering	CodeCode Available	1

Show:10 25 50

← PrevPage 96 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified