Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3631–3640 of 10817 papers

Title	Date	Tasks	Status	Score
Atomic Consistency Preference Optimization for Long-Form Question Answering	May 14, 2025	FormLong Form Question Answering	CodeCode Available	5
Improving Health Question Answering with Reliable and Time-Aware Evidence Retrieval	Apr 12, 2024	ArticlesQuestion Answering	CodeCode Available	5
Improving language models by retrieving from trillions of tokens	Dec 8, 2021	Language ModellingQuestion Answering	CodeCode Available	5
Convolutional Neural Network Architectures for Matching Natural Language Sentences	Mar 11, 2015	Question Answering	CodeCode Available	5
CERET: Cost-Effective Extrinsic Refinement for Text Generation	Jun 8, 2024	Abstractive Text SummarizationQuestion Answering	CodeCode Available	5
SlotPi: Physics-informed Object-centric Reasoning Models	Jun 12, 2025	ObjectQuestion Answering	CodeCode Available	5
ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator	May 28, 2024	Information RetrievalLanguage Modelling	CodeCode Available	5
Convincing Rationales for Visual Question Answering Reasoning	Feb 6, 2024	Question AnsweringVisual Question Answering	CodeCode Available	5
A Recurrent BERT-based Model for Question Generation	Nov 1, 2019	Language ModelingLanguage Modelling	CodeCode Available	5
Improving Differentiable Neural Computers Through Memory Masking, De-allocation, and Link Distribution Sharpness Control	Apr 23, 2019	Question Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 364 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified