Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3271–3280 of 10817 papers

Title	Date	Tasks	Status
Bilingual Active Learning for Relation Classification via Pseudo Parallel Corpora	Jun 1, 2014	Active LearningClassification	—Unverified
Bring Remote Sensing Object Detect Into Nature Language Model: Using SFT Method	Mar 11, 2025	Language ModelingLanguage Modelling	—Unverified
A Novel Attention-based Aggregation Function to Combine Vision and Language	Apr 27, 2020	General ClassificationImage Captioning	—Unverified
End-to-End Vision Tokenizer Tuning	May 15, 2025	Image GenerationQuestion Answering	—Unverified
Energy-Efficient Inference Accelerator for Memory-Augmented Neural Networks on an FPGA	May 21, 2018	GPUQuestion Answering	—Unverified
Enforcing Reasoning in Visual Commonsense Reasoning	Oct 21, 2019	Question AnsweringReinforcement Learning	—Unverified
Dual Embeddings and Metrics for Relational Similarity	Jan 1, 2017	Learning Word EmbeddingsMachine Translation	—Unverified
English Intermediate-Task Training Improves Zero-Shot Cross-Lingual Transfer Too	May 26, 2020	Cross-Lingual TransferHellaSwag	—Unverified
Dual Constrained Question Embeddings with Relational Knowledge Bases for Simple Question Answering	Nov 1, 2017	Question Answering	—Unverified
Dual Co-Matching Network for Multi-choice Reading Comprehension	Jan 27, 2019	Machine Reading ComprehensionMultiple-choice	—Unverified

Show:10 25 50

← PrevPage 328 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified