Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 2041–2050 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
Learning to Perturb Word Embeddings for Out-of-distribution QA	May 6, 2021	Data AugmentationDomain Generalization	CodeCode Available	1	5
TyDi QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages	Mar 10, 2020	Question AnsweringTranslation	CodeCode Available	1	5
LLaSA: A Multimodal LLM for Human Activity Analysis Through Wearable and Smartphone Sensors	Jun 20, 2024	16kInstruction Following	CodeCode Available	1	5
Learning to Poison Large Language Models for Downstream Manipulation	Feb 21, 2024	Data PoisoningIn-Context Learning	CodeCode Available	1	5
UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis	Jun 21, 2024	Question AnsweringRAG	CodeCode Available	1	5
CodeQA: A Question Answering Dataset for Source Code Comprehension	Sep 17, 2021	Machine Reading ComprehensionQuestion Answering	CodeCode Available	1	5
LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations	Dec 9, 2024	Language ModelingLanguage Modelling	CodeCode Available	1	5
LogEval: A Comprehensive Benchmark Suite for Large Language Models In Log Analysis	Jul 2, 2024	Anomaly DetectionFault Diagnosis	CodeCode Available	1	5
ComQA:Compositional Question Answering via Hierarchical Graph Neural Networks	Jan 16, 2021	Answer SelectionMachine Reading Comprehension	CodeCode Available	1	5
LIQUID: A Framework for List Question Answering Dataset Generation	Feb 3, 2023	Dataset GenerationQuestion Answering	CodeCode Available	1	5

Show:10 25 50

← PrevPage 205 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified