Question Answering

Question answering can be segmented into domain-specific tasks like community question answering and knowledge-base question answering. Popular benchmark datasets for evaluation question answering systems include SQuAD, HotPotQA, bAbI, TriviaQA, WikiQA, and many others. Models for question answering are typically evaluated on metrics like EM and F1. Some recent top performing models are T5 and XLNet.

( Image credit: SQuAD )

Papers

Recently Added Most Hyped Most Active Needs Verification Most Verified

Showing 741–750 of 10817 papers

Title	Date	Tasks	Status	Hype
DRESSing Up LLM: Efficient Stylized Question-Answering via Style Subspace Editing	Jan 24, 2025	Language ModelingLanguage Modelling	CodeCode Available	1
DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain	Feb 20, 2024	named-entity-recognitionNamed Entity Recognition	CodeCode Available	1
Towards General Natural Language Understanding with Probabilistic Worldbuilding	May 6, 2021	Natural Language UnderstandingQuestion Answering	CodeCode Available	1
DREAM: Improving Situational QA by First Elaborating the Situation	Dec 16, 2021	Question Answering	CodeCode Available	1
DrugEHRQA: A Question Answering Dataset on Structured and Unstructured Electronic Health Records For Medicine Related Queries	May 3, 2022	Question AnsweringText to SQL	CodeCode Available	1
Don't Generate, Discriminate: A Proposal for Grounding Language Models to Real-World Environments	Dec 19, 2022	In-Context LearningKnowledge Base Question Answering	CodeCode Available	1
DOM-LM: Learning Generalizable Representations for HTML Documents	Jan 25, 2022	AttributeAttribute Extraction	CodeCode Available	1
Don't Take the Easy Way Out: Ensemble Based Methods for Avoiding Known Dataset Biases	Sep 9, 2019	Natural Language InferenceQuestion Answering	CodeCode Available	1
A Personalized Dense Retrieval Framework for Unified Information Access	Apr 26, 2023	Information RetrievalQuestion Answering	CodeCode Available	1
SentenceMIM: A Latent Variable Language Model	Feb 18, 2020	Language ModelingLanguage Modelling	CodeCode Available	1

Show:10 25 50

← PrevPage 75 of 1082Next →

All datasets SQuAD2.0 SQuAD1.1 HotpotQA PIQA BoolQ COPA TriviaQA SQuAD1.1 dev Natural Questions OpenBookQA TruthfulQA MultiRC

Benchmark Results

#	Model	Metric	Claimed	Verified	Status
1	IE-Net (ensemble)	EM	90.94	—	Unverified
2	FPNet (ensemble)	EM	90.87	—	Unverified
3	IE-NetV2 (ensemble)	EM	90.86	—	Unverified
4	SA-Net on Albert (ensemble)	EM	90.72	—	Unverified
5	SA-Net-V2 (ensemble)	EM	90.68	—	Unverified
6	FPNet (ensemble)	EM	90.6	—	Unverified
7	Retro-Reader (ensemble)	EM	90.58	—	Unverified
8	EntitySpanFocusV2 (ensemble)	EM	90.52	—	Unverified
9	TransNets + SFVerifier + SFEnsembler (ensemble)	EM	90.49	—	Unverified
10	EntitySpanFocus+AT (ensemble)	EM	90.45	—	Unverified