Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 4021–4030 of 10817 papers

Title	Date	Tasks	Status	Hype
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory	Aug 28, 2023	Question AnsweringRetrieval	CodeCode Available	1
Biomedical Entity Linking with Triple-aware Pre-Training	Aug 28, 2023	Entity LinkingQuestion Answering	—Unverified	0
Empowering Cross-lingual Abilities of Instruction-tuned Large Language Models by Translation-following demonstrations	Aug 27, 2023	Instruction FollowingMMLU	CodeCode Available	0
Towards Vision-Language Mechanistic Interpretability: A Causal Tracing Tool for BLIP	Aug 27, 2023	Question AnsweringText Generation	CodeCode Available	1
Generations of Knowledge Graphs: The Crazy Ideas and the Business Impact	Aug 27, 2023	Knowledge GraphsQuestion Answering	—Unverified	0
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records	Aug 27, 2023	2kInstruction Following	—Unverified	0
Knowledge-Driven CoT: Exploring Faithful Reasoning in LLMs for Knowledge-intensive Question Answering	Aug 25, 2023	In-Context LearningQuestion Answering	CodeCode Available	1
Rethinking Language Models as Symbolic Knowledge Graphs	Aug 25, 2023	Knowledge GraphsQuestion Answering	—Unverified	0
Modeling Uncertainty and Using Post-fusion as Fallback Improves Retrieval Augmented Generation with LLMs	Aug 24, 2023	Answer GenerationOpen-Domain Question Answering	—Unverified	0
CALM : A Multi-task Benchmark for Comprehensive Assessment of Language Model Bias	Aug 24, 2023	DiversityLanguage Modeling	CodeCode Available	1

Show:10 25 50

← PrevPage 403 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified