Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3161–3170 of 10817 papers

Title	Date	Tasks	Status	Hype
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models	Feb 17, 2024	Medical Question AnsweringQuestion Answering	CodeCode Available	1
Direct Evaluation of Chain-of-Thought in Multi-hop Reasoning with Knowledge Graphs	Feb 17, 2024	Knowledge GraphsMulti-hop Question Answering	CodeCode Available	1
GenDec: A robust generative Question-decomposition method for Multi-hop reasoning	Feb 17, 2024	Multi-hop Question AnsweringQuestion Answering	—Unverified	0
PEDANTS: Cheap but Effective and Interpretable Answer Equivalence	Feb 17, 2024	BenchmarkingForm	CodeCode Available	2
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering	Feb 17, 2024	Arithmetic ReasoningMathematical Reasoning	—Unverified	0
PAT-Questions: A Self-Updating Benchmark for Present-Anchored Temporal Question-Answering	Feb 16, 2024	Question AnsweringRAG	—Unverified	0
BlendFilter: Advancing Retrieval-Augmented Large Language Models via Query Generation Blending and Knowledge Filtering	Feb 16, 2024	Open-Domain Question AnsweringQuestion Answering	—Unverified	0
Language Models as Science Tutors	Feb 16, 2024	GSM8KMath	CodeCode Available	1
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction	Feb 16, 2024	DenoisingLanguage Modeling	CodeCode Available	0
VQAttack: Transferable Adversarial Attacks on Visual Question Answering via Pre-trained Models	Feb 16, 2024	Adversarial RobustnessLanguage Modelling	—Unverified	0

Show:10 25 50

← PrevPage 317 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified