Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 1321–1330 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
ChiQA: A Large Scale Image-based Real-World Question Answering Dataset for Multi-Modal Understanding	Aug 5, 2022	Image RetrievalQuestion Answering	CodeCode Available	1	5
CoRel: Seed-Guided Topical Taxonomy Construction by Concept Learning and Relation Transferring	Oct 13, 2020	Question AnsweringRelation	CodeCode Available	1	5
HopWeaver: Synthesizing Authentic Multi-Hop Questions Across Text Corpora	May 21, 2025	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1	5
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model	Jun 15, 2023	Formmodel	CodeCode Available	1	5
Knowing More About Questions Can Help: Improving Calibration in Question Answering	Jun 2, 2021	Answer GenerationData Augmentation	CodeCode Available	1	5
CoSQA: 20,000+ Web Queries for Code Search and Question Answering	May 27, 2021	Code SearchContrastive Learning	CodeCode Available	1	5
Avoiding Reasoning Shortcuts: Adversarial Evaluation, Training, and Model Development for Multi-Hop QA	Jun 17, 2019	Multi-hop Question AnsweringQuestion Answering	CodeCode Available	1	5
3D-Aware Visual Question Answering about Parts, Poses and Occlusions	Oct 27, 2023	Question AnsweringVisual Question Answering	CodeCode Available	1	5
Counterfactual Samples Synthesizing and Training for Robust Visual Question Answering	Oct 3, 2021	counterfactualDiagnostic	CodeCode Available	1	5
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering	Dec 2, 2020	Common Sense ReasoningQuestion Answering	CodeCode Available	1	5

Show:10 25 50

← PrevPage 133 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified