Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 651–660 of 10817 papers

Title	Date	Tasks	Status	Hype	Score
AdaCAD: Adaptively Decoding to Balance Conflicts between Contextual and Parametric Knowledge	Sep 11, 2024	Language ModellingLarge Language Model	CodeCode Available	1	5
Eliminating Position Bias of Language Models: A Mechanistic Approach	Jul 1, 2024	Mathobject-detection	CodeCode Available	1	5
CKBP v2: Better Annotation and Reasoning for Commonsense Knowledge Base Population	Apr 20, 2023	Knowledge Base PopulationQuestion Answering	CodeCode Available	1	5
Embedding Recycling for Language Models	Jul 11, 2022	Question AnsweringText Classification	CodeCode Available	1	5
Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting	Oct 1, 2024	Continual LearningLanguage Modeling	CodeCode Available	1	5
Engineering flexible machine learning systems by traversing functionally-invariant paths	Apr 30, 2022	Adversarial RobustnessContinual Learning	CodeCode Available	1	5
Entailment as Few-Shot Learner	Apr 29, 2021	Contrastive LearningData Augmentation	CodeCode Available	1	5
Evaluating Open-Domain Question Answering in the Era of Large Language Models	May 11, 2023	Open-Domain Question AnsweringQuestion Answering	CodeCode Available	1	5
Can Question Rewriting Help Conversational Question Answering?	Apr 13, 2022	Conversational Question AnsweringQuestion Answering	CodeCode Available	1	5
Can questions summarize a corpus? Using question generation for characterizing COVID-19 research	Sep 19, 2020	ArticlesQuestion Answering	CodeCode Available	1	5

Show:10 25 50

← PrevPage 66 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified