Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 3391–3400 of 10817 papers

Title	Date	Tasks	Status	Score
A Unified Syntax-aware Framework for Semantic Role Labeling	Oct 1, 2018	Machine TranslationQuestion Answering	CodeCode Available	5
Interpretable Multi-hop Reasoning for Forecasting Future Links on Temporal Knowledge Graphs	Sep 29, 2021	Knowledge GraphsQuestion Answering	CodeCode Available	5
A Unified Hallucination Mitigation Framework for Large Vision-Language Models	Sep 24, 2024	HallucinationQuestion Answering	CodeCode Available	5
Interactive Machine Comprehension with Information Seeking Agents	Aug 27, 2019	Decision MakingInformation Retrieval	CodeCode Available	5
Question Similarity in Community Question Answering: A Systematic Exploration of Preprocessing Methods and Models	Sep 1, 2019	Community Question AnsweringQuestion Answering	CodeCode Available	5
Interactive Natural Language-based Person Search	Feb 19, 2020	Person SearchQuestion Answering	CodeCode Available	5
EpiK-Eval: Evaluation for Language Models as Epistemic Models	Oct 23, 2023	Question Answering	CodeCode Available	5
Episodic Memory in Lifelong Language Learning	Jun 3, 2019	Continual LearningGeneral Classification	CodeCode Available	5
A Claim Decomposition Benchmark for Long-form Answer Verification	Oct 16, 2024	FormHallucination	CodeCode Available	5
Interactive Instance-based Evaluation of Knowledge Base Question Answering	Nov 1, 2018	Entity LinkingKnowledge Base Question Answering	CodeCode Available	5

Show:10 25 50

← PrevPage 340 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified